論文の概要: MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization
- arxiv url: http://arxiv.org/abs/2605.19330v1
- Date: Tue, 19 May 2026 04:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.114772
- Title: MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization
- Title(参考訳): MOCHA:エージェントスキル最適化のための多目的Chebyshevアニーリング
- Authors: Md Mehrab Tanjim, Jayakumar Subramanian, Xiang Chen, Branislav Kveton, Subhojyoti Mukherjee, Anlan Zhang, Sungchul Kim, Somdeb Sarkhel, Sunav Choudhury,
- Abstract要約: MOCHA (Multi-lang Chebyshev Annealing) は、非居住地域を含む全前面をカバーしている。
MOCHAは全てのタスクを突破し、最強のベースラインよりも平均精度が7.5%向上した。
- 参考スコア(独自算出の注目度): 35.57702110117083
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM agents organize behavior through skills - structured natural-language specifications governing how an agent reasons, retrieves, and responds. Unlike monolithic prompts, skills are multi-field artifacts subject to hard platform constraints: description fields are truncated for routing, instruction bodies are compacted via progressive disclosure, and co-resident skills compete for limited context windows. These constraints make skill optimization inherently multi-objective: a skill must simultaneously maximize task performance and satisfy platform limits. Yet existing prompt optimizers either ignore these trade-offs or collapse them into a weighted sum, missing Pareto-optimal variants in non-convex objective regions. We introduce MOCHA (Multi-Objective Chebyshev Annealing), which replaces single-objective selection with Chebyshev scalarization - covering the full Pareto front, including non-convex regions - combined with exponential annealing that transitions from exploration to exploitation. In our experiments across six diverse agent skills - where all methods share the same multi-objective mutation operator and baselines receive identical per-objective textual feedback - existing optimizers fail to improve the seed skill on 4 of 6 tasks: 1000 rollouts yield zero progress. MOCHA breaks through on every task, achieving 7.5% relative improvement in mean correctness over the strongest baseline (up to 14.9% on FEVER and 10.4% on TheoremQA) while discovering twice as many more Pareto-optimal skill variants.
- Abstract(参考訳): LLMエージェントは、エージェントが理由を定め、検索し、応答する方法を規定する、構造化された自然言語仕様によって、スキルを通じて振舞いを組織する。
モノリシックなプロンプトとは異なり、スキルはハードプラットフォーム制約の対象となる多分野のアーティファクトである: 説明フィールドはルーティングのために切り離され、命令本体はプログレッシブな開示によってコンパクト化され、コレジデントスキルは限られたコンテキストウィンドウで競合する。
スキルは同時にタスクのパフォーマンスを最大化し、プラットフォームの制限を満たす必要があります。
しかし、既存のプロンプトオプティマイザはこれらのトレードオフを無視したり、重み付けの和に分解する。
我々は,Multi-Objective Chebyshev Annealing(Multi-Objective Chebyshev Annealing)を導入し,単一対象の選択をチェビシェフスカラー化(Chebyshev scalarization)に置き換えた。
実験では、すべてのメソッドが同じ多目的突然変異演算子を共有し、ベースラインが同一の目的ごとのテキストフィードバックを受け取る6つの多様なエージェントスキルにまたがって、既存のオプティマイザは、6つのタスクのうち4つのシードスキルを改善できません。
MOCHAは全てのタスクを突破し、最強のベースライン(FEVERが14.9%、TheoremQAが10.4%)に対して平均精度が7.5%向上した。
関連論文リスト
- SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents [6.293920920196533]
SkillLensは階層的なスキル進化フレームワークで、スキルをポリシー、戦略、手順、プリミティブの4層グラフにまとめる。
セマンティックなスキルシードを検索し、スキルグラフの次数補正されたランダムウォークを通じて拡張し、各訪問したユニットが受け入れられ、分解され、書き直され、スキップされるかどうかを検証器を使って決定する。
MuLocbenchとALFWorld全体で、SkillLensは、強いスキルベースのベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-08T18:48:04Z) - EvoSkill: Automated Skill Discovery for Multi-Agent Systems [6.319876096746374]
エージェントスキルを自動的に発見・洗練する自己進化型フレームワークである textbfEvoSkill を紹介する。
EvoSkillは実行障害を分析し、新しいスキルや既存のスキルへの編集を提案し、それらを構造化された再利用可能なスキルフォルダに実体化する。
われわれはEvoSkillを米国財務データの根拠となる推論ベンチマークであるOfficeQAと、ノイズの多い検索ベンチマークであるSealQAの2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-03T09:07:22Z) - MortgageLLM: Domain-Adaptive Pretraining with Residual Instruction Transfer, Alignment Tuning, and Task-Specific Routing [0.7367330074083941]
ドメイン固有の新しい大規模言語モデルであるMortgageLLMを提案する。
シングルベースモデルからデュアルトラックの特殊化フレームワークを用いて開発されている。
我々は,(1)高度に専門化された住宅ローン金融分野へのこの残留手法の適用,(2)対話型Q&Aモデルと,分類と要約のための構造化タスクモデルを組み合わせたデュアルエキスパートアーキテクチャ,(3)エキスパートモデル自体が行う少数ショット分類を用いたインテリジェントタスクルーティング機構を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:37:57Z) - BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities [61.173773299032746]
身体能力とは、エージェントが物理的世界を理解し、理解し、相互作用する一連の基本的な能力を指す。
我々は,原子エンボディド能力のMLLMを評価する,包括的できめ細かなベンチマークであるBEARを紹介する。
BEARは、低レベルポインティング、軌跡理解、空間的推論、高レベルプランニングといったタスクを含む、14のドメインにまたがる4,469のインターリーブイメージビデオテキストエントリで構成されている。
我々は,MLLM知覚,3D理解,計画能力を強化するために,事前学習された視覚モデルを統合するマルチモーダル・コンバータブルエージェントであるBEAR-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:18:36Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Multi-Attribute Constraint Satisfaction via Language Model Rewriting [67.5778646504987]
マルチ属性制約満足度(英: Multi-Attribute Constraint Satisfaction, MACS)は、言語モデルを微調整して、複数の外部実値属性に対するユーザ指定制約を満たす手法である。
我々の研究は、NLPやバイオインフォマティクスにまたがる多様な応用に影響を及ぼす、一般化および実値多属性制御のための新しい道を開く。
論文 参考訳(メタデータ) (2024-12-26T12:36:39Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [19.365009652356793]
エキスパート-トークン共鳴(ETR)は、専門家-トークン相互作用を再想像する理論的な双方向ルーティング機構である。
ETRは、ベースラインのMoE実装と比較して、エンドツーエンドのトレーニング効率が5.4%-46.6%向上している。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。