Fugu-MT 論文翻訳(概要): SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents

論文の概要: SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents

arxiv url: http://arxiv.org/abs/2605.29440v1
Date: Thu, 28 May 2026 06:33:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:55.857002
Title: SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents
Title（参考訳）: SkillBrew: LLMエージェント用スキルバンクの多目的キュレーション
Authors: Wentao Hu, Zhendong Chu, Yiming Zhang, Junda Wu, Ming Jin, Xiangyu Zhao, Yilei Shao, Yanfeng Wang, Qingsong Wen,
Abstract要約: LLMエージェントはますます、キュレートされたスキルバンクに依存している。既存のアプローチは追加のみの方法でこれらの銀行を拡張する。本稿では,多目的キュレーションフレームワークであるSkillBrewを紹介する。
参考スコア（独自算出の注目度）: 71.54500730593263
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-augmented LLM agents increasingly rely on curated skill banks: collections of reusable textual principles that guide decision making on complex tasks. Existing approaches typically expand these banks in an append-only fashion, continuously adding new skills without removing redundant, outdated, or harmful ones, resulting in inefficient and poorly curated repositories. In this paper, we formulate the skill bank curation as a constrained multi-objective problem: a desirable bank must be useful for the agent, diverse in its content, and provide good coverage of the query distribution. To this end, we introduce SkillBrew, a multi-objective curation framework that formalizes skill bank curation as Pareto-aware optimization under a utility constraint, and solves it via a bi-level propose-then-verify loop. We evaluate our approach on two public benchmarks. Our findings suggest that treating skill banks as objects of principled curation, rather than ever-growing append-only logs, is an important step toward building self-improving LLM agents.
Abstract（参考訳）: 検索可能なLLMエージェントは、複雑なタスクにおける意思決定をガイドする再利用可能なテキスト原則のコレクションである、キュレートされたスキルバンクにますます依存している。既存のアプローチは、通常、これらの銀行を追加のみの方法で拡張し、冗長、時代遅れ、有害なものを取り除くことなく、新たなスキルを継続的に追加する。本稿では,スキルバンクのキュレーションを制約付き多目的問題として定式化する。望ましいバンクはエージェントにとって有用で,内容が多様であり,クエリ分布の良好なカバレッジを提供する必要がある。そこで我々は,多目的キュレーションフレームワークであるSkillBrewを紹介した。これは多目的キュレーションフレームワークで,実用的制約下でのPareto-awareの最適化として,スキルバンクキュレーションを形式化し,バイレベルなプロポーザル・then-verifyループによって解決する。提案手法を2つの公開ベンチマークで評価する。本研究は, 自己改善型LSMエージェントの構築に向けた重要なステップとして, 従来より増大してきた追加ログではなく, 原則的キュレーションの対象として, スキルバンクを取り扱うことを示唆している。

関連論文リスト

CODESKILL: Learning Self-Evolving Skills for Coding Agents [13.599750520978988]
コーディングエージェントは、ソフトウェアエンジニアリングタスクを解決しながら、豊富な軌道を生成する。エージェントの自己進化を可能にするために、これらの軌道は、体験をコンパクトにエンコードして将来の行動を導く再利用可能な手続きスキルに蒸留することができる。 CODESKILLは,学習可能な管理方針として,スキル抽出とスキルバンクのメンテナンスを再構築するLLMベースのフレームワークである。
論文参考訳（メタデータ） (2026-05-25T05:12:49Z)
MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization [35.57702110117083]
MOCHA (Multi-lang Chebyshev Annealing) は、非居住地域を含む全前面をカバーしている。 MOCHAは全てのタスクを突破し、最強のベースラインよりも平均精度が7.5%向上した。
論文参考訳（メタデータ） (2026-05-19T04:07:41Z)
Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文参考訳（メタデータ） (2026-05-10T06:19:15Z)
Skill-CMIB: Multimodal Agent Skill for Consistent Action via Conditional Multimodal Information Bottleneck [60.930825621351794]
マルチモーダルスキル構築のための条件付きマルチモーダル情報ボトルネック(CMIB)を提案する。単純な2ストリームの定式化とは異なり、CMIBはテキストスキルにマルチモーダルラテントを明示的に条件付け、したがってクロスモーダルの冗長性を構造的に低減する。 CMIBの条件分解を最適化し、再利用可能なマルチモーダルスキルを得られるようにした変動目的のインスタンスを作成する。
論文参考訳（メタデータ） (2026-05-08T22:17:54Z)
SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents [6.293920920196533]
SkillLensは階層的なスキル進化フレームワークで、スキルをポリシー、戦略、手順、プリミティブの4層グラフにまとめる。セマンティックなスキルシードを検索し、スキルグラフの次数補正されたランダムウォークを通じて拡張し、各訪問したユニットが受け入れられ、分解され、書き直され、スキップされるかどうかを検証器を使って決定する。 MuLocbenchとALFWorld全体で、SkillLensは、強いスキルベースのベースラインよりも一貫して改善されている。
論文参考訳（メタデータ） (2026-05-08T18:48:04Z)
Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks [83.4942519570046]
大型言語モデル(LLM)はゲームプレイエージェントとして有望な代替手段を提供するが、一貫した長期的意思決定に苦戦することが多い。我々は、LLM決定エージェントが学習可能なスキルバンクからスキルを回収し、アクションテイクをガイドするコ進化フレームワークであるCOSPLAYを提案する。当社のフレームワークは,スキル検索とアクション生成を学習するための意思決定エージェントを改良し,スキルバンクエージェントは,契約とともに継続的にスキルを抽出し,洗練し,更新する。
論文参考訳（メタデータ） (2026-04-22T18:17:17Z)
How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings [29.3744517703302]
本研究は,段階的に挑戦的な現実的な環境下でのスキルユーティリティの総合的研究である。その結果、設定がよりリアルになるにつれて、パフォーマンスは一貫して低下することがわかった。クエリ固有の改善は、初期スキルが合理的な妥当性と品質を持つ場合に、性能を著しく回復することを示す。
論文参考訳（メタデータ） (2026-04-06T00:10:30Z)
EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。 EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文参考訳（メタデータ） (2026-04-02T06:43:20Z)
BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。 BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文参考訳（メタデータ） (2026-01-16T07:06:58Z)
Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文参考訳（メタデータ） (2025-12-18T21:58:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。