論文の概要: From Multi-Agent to Single-Agent: When Is Skill Distillation Beneficial?
- arxiv url: http://arxiv.org/abs/2604.01608v1
- Date: Thu, 02 Apr 2026 04:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.273035
- Title: From Multi-Agent to Single-Agent: When Is Skill Distillation Beneficial?
- Title(参考訳): マルチエージェントからシングルエージェントへ:スキル蒸留はいつ有効か?
- Authors: Binyan Xu, Dong Fang, Haitao Li, Kehuan Zhang,
- Abstract要約: マルチエージェントシステム(MAS)は専門知識を分散することで複雑なタスクに対処するが、これは重度の調整オーバーヘッドの犠牲になることが多い。
スキルユーティリティはタスクではなく評価基準によって管理されていることを示す。
スキルユーティリティの先駆的な予測器であるMetric Freedom(F$)を紹介します。
- 参考スコア(独自算出の注目度): 6.434750896227443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems (MAS) tackle complex tasks by distributing expertise, though this often comes at the cost of heavy coordination overhead, context fragmentation, and brittle phase ordering. Distilling a MAS into a single-agent skill can bypass these costs, but this conversion lacks a principled answer for when and what to distill. Instead, the empirical outcome is surprisingly inconsistent: skill lift ranges from a 28% improvement to a 2% degradation across metrics of the exact same task. In this work, we reveal that skill utility is governed not by the task, but by the evaluation metric. We introduce Metric Freedom ($F$), the first a priori predictor of skill utility. $F$ measures the topological rigidity of a metric's scoring landscape by quantifying how output diversity couples with score variance via a Mantel test. Guided by $F$, we propose a two-stage adaptive distillation framework. Stage 1 acts as a selective extraction mechanism, extracting tools and knowledge while discarding restrictive structures on "free" metrics to preserve exploration. Stage 2 targets computationally intensive iterative refinement exclusively toward "rigid" metrics ($F \lesssim 0.6$) to eliminate trajectory-local overfitting. Evaluating across 4 tasks, 11 datasets, and 6 metrics, $F$ strongly predicts skill utility ($ρ= -0.62$, $p < 0.05$). Strikingly, identical agent trajectories yield diametrically opposite skill lifts under rigid versus free metrics, demonstrating that skill utility is fundamentally a metric-level property. Driven by this signal, our adaptive agent matches or exceeds the original MAS while reducing cost up to 8$\times$ and latency by up to 15$\times$.
- Abstract(参考訳): マルチエージェントシステム(MAS)は専門知識を分散することで複雑なタスクに対処するが、これは重度の調整オーバーヘッド、コンテキストの断片化、不安定なフェーズオーダリングといったコストがかかる。
MASをシングルエージェントのスキルに蒸留すると、これらのコストを回避できるが、この変換はいつ、何を蒸留するかという原則的な答えを欠く。
スキルリフトは28%の改善から2%の劣化まで、まったく同じタスクのメトリクスで行われています。
本研究では,タスクではなく評価基準によって,スキルユーティリティが管理されていることを明らかにする。
スキルユーティリティの先駆的な予測器であるMetric Freedom(F$)を紹介します。
F$は、測定値のスコアランドスケープのトポロジカル剛性を測定し、アウトプットの多様性とスコアのばらつきがMantelテストによってどのように結合するかを定量化する。
F$でガイドされた2段階の適応蒸留フレームワークを提案する。
ステージ1は選択的な抽出メカニズムとして機能し、ツールと知識を抽出し、「自由」なメトリクスの制限された構造を捨てて探索を維持する。
ステージ2は「厳密」なメトリクス(F \lesssim 0.6$)に限定して計算集約的な反復的洗練を目標とし、軌道局所的なオーバーフィッティングを排除している。
4つのタスク、11のデータセット、6つのメトリクスを評価し、$F$はスキルユーティリティ(ρ= -0.62$, $p < 0.05$)を強く予測する。
厳密に言えば、同一のエージェント・トラジェクトリは、厳密な対自由なメトリクスの下でのスキル・リフトと対等に反対のスキル・リフトを生じさせ、スキル・ユーティリティが基本的にメートルレベルの特性であることを証明している。
このシグナルによって駆動される当社の適応エージェントは、元のMASと一致またはオーバーし、コストを最大8$\times$、レイテンシを最大15$\times$に削減します。
関連論文リスト
- When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning [0.0]
コントラストフォワード(Contrastive Forward-Forward, CFF)学習は、教師付きコントラスト目標に対して、ビジョントランスフォーマーを層別に層状化する。
比較損失における正対辺のマージンは、類似度クランプの飽和により適用される。
対数確率の後にマージンを減じる別の定式化が、平均-上-正の還元の下で勾配ニュートラルであることを証明する。
論文 参考訳(メタデータ) (2026-03-01T07:00:38Z) - Parameter-Free Federated TD Learning with Markov Noise in Heterogeneous Environments [3.4165401459803335]
フェデレートラーニング(FL)は、複数のエージェントをまたいだ探索と訓練を分散することにより、強化学習を劇的に高速化することができる。
この速度を達成するために既存のTD学習結果には、未知の問題パラメータに依存するアルゴリズムが必要である。
本稿では,Polyak-Ruppert平均化を用いた2段階のフェデレーション時間差学習を提案する。
論文 参考訳(メタデータ) (2025-10-08T18:36:30Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - Metric-valued regression [9.78225953651633]
本稿では,2つの距離空間間のマッピングを効率よく学習するアルゴリズムを提案する。
このレベルの一般性において、我々は無知環境における損失に対する学習可能性の最初の結果である。
論文 参考訳(メタデータ) (2022-02-07T10:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。