論文の概要: From Context to Skills: Can Language Models Learn from Context Skillfully?
- arxiv url: http://arxiv.org/abs/2604.27660v2
- Date: Sun, 03 May 2026 14:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 14:09:07.078256
- Title: From Context to Skills: Can Language Models Learn from Context Skillfully?
- Title(参考訳): コンテキストからスキルへ:言語モデルはコンテキストスキルから学ぶことができるか?
- Authors: Shuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang, Dingwei Chen, Zhitong Wang, Zhenhailong Wang, Kangyang Luo, Zheng Wang, Gang Chen, Fanchao Qi, Minjia Zhang, Maosong Sun,
- Abstract要約: Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
- 参考スコア(独自算出の注目度): 56.5857437218136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world tasks require language models (LMs) to reason over complex contexts that exceed their parametric knowledge. This calls for context learning, where LMs directly learn relevant knowledge from the given context. An intuitive solution is inference-time skill augmentation: extracting the rules and procedures from context into natural-language skills. However, constructing such skills for context learning scenarios faces two challenges: the prohibitive cost of manual skill annotation for long, technically dense contexts, and the lack of external feedback for automated skill construction. In this paper, we propose Ctx2Skill, a self-evolving framework that autonomously discovers, refines, and selects context-specific skills without human supervision or external feedback. At its core, a multi-agent self-play loop has a Challenger that generates probing tasks and rubrics, a Reasoner that attempts to solve them guided by an evolving skill set, and a neutral Judge that provides binary feedback. Crucially, both the Challenger and the Reasoner evolve through accumulated skills: dedicated Proposer and Generator agents analyze failure cases and synthesize them into targeted skill updates for both sides, enabling automated skill discovery and refinement. To prevent adversarial collapse caused by increasingly extreme task generation and over-specialized skill accumulation, we further introduce a Cross-time Replay mechanism that identifies the skill set achieving the best balance across representative cases for the Reasoner side, ensuring robust and generalizable skill evolution. The resulting skills can be plugged into any language model to obtain better context learning capability. Evaluated on four context learning tasks from CL-bench, Ctx2Skill consistently improves solving rates across backbone models.
- Abstract(参考訳): 多くの実世界のタスクは、パラメトリック知識を超える複雑なコンテキストを推論するために言語モデル(LM)を必要とする。
これはコンテキスト学習と呼ばれ、LMは与えられたコンテキストから関連する知識を直接学習する。
直感的な解決策は推論時スキル増強(Inference-time skill augmentation)であり、コンテキストからルールとプロシージャを自然言語スキルに抽出する。
しかし、コンテキスト学習シナリオのためのこのようなスキルの構築には、長い技術的に密集したコンテキストに対する手動スキルアノテーションの禁止コストと、自動スキル構築のための外部からのフィードバックの欠如という2つの課題がある。
本稿では、人間の監督や外部からのフィードバックなしに、文脈固有のスキルを自律的に発見、洗練、選択する自己進化型フレームワークであるCtx2Skillを提案する。
中心となるマルチエージェントのセルフプレイループには、探索タスクとルーリックを生成するチャレンジャー、進化するスキルセットによってガイドされるそれらを解決しようとするReasoner、バイナリフィードバックを提供する中立なジャッジがある。
専門のProposerとGeneratorエージェントは、障害ケースを分析し、双方のターゲットとするスキル更新に合成することで、自動スキル発見と改善を可能にします。
タスク生成の激化と過剰なスキル蓄積による敵意の崩壊を防止するため,Reasoner側の代表事例間の最適なバランスを達成し,堅牢で汎用的なスキル進化を確実にするクロスタイム・リプレイ機構を導入する。
得られたスキルは、より良い文脈学習能力を得るために、任意の言語モデルにプラグインすることができる。
CL-benchから4つのコンテキスト学習タスクを評価することで、Ctx2Skillはバックボーンモデル間の解決率を一貫して改善する。
関連論文リスト
- SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support [3.277125886726497]
既存のスキルクリエーターはドメイン基盤を欠き、現実世界のタスク要件に適合しないスキルを生み出す。
SkillForgeは、エンドツーエンドの生成/リファインメントループを閉じるセルフ進化フレームワークです。
1,883のチケットと3,737のタスクにまたがる,現実世界のクラウドサポートシナリオを5つ評価した。
論文 参考訳(メタデータ) (2026-04-09T07:11:23Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification [85.3692584167951]
Anthropicは、LLMエージェントが多段階のプロフェッショナルタスクに取り組むためのスキルの概念を提案する。
ツールは単一の自己完結型関数であり、スキルは相互依存型多ファイルアーティファクトの構造化バンドルである。
EvoSkillsは、エージェントが複雑なマルチファイルスキルパッケージを自律的に構築できる自己進化型スキルフレームワークである。
論文 参考訳(メタデータ) (2026-04-02T06:43:20Z) - MaestroMotif: Skill Design from Artificial Intelligence Feedback [67.17724089381056]
MaestroMotifはAI支援スキルデザインの手法であり、高性能で適応可能なエージェントを生成する。
本稿では,AIを活用したスキルデザイン手法であるMaestroMotifについて述べる。
論文 参考訳(メタデータ) (2024-12-11T16:59:31Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Rethinking Mutual Information for Language Conditioned Skill Discovery
on Imitation Learning [36.624923972563415]
我々はLanguage Conditioned Skill Discovery (LCSD)として知られるエンドツーエンドの模倣学習手法を提案する。
ベクトル量子化を利用して離散潜在スキルを学習し、軌跡のスキルシーケンスを活用して高レベルの意味的命令を再構築する。
提案手法は,未確認タスクに対する一般化能力の向上,スキル解釈性の向上,タスク完了の成功率の向上などを示す。
論文 参考訳(メタデータ) (2024-02-27T13:53:52Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - LISA: Learning Interpretable Skill Abstractions from Language [85.20587800593293]
言語条件による実演から多種多様な解釈可能なスキルを学習できる階層型模倣学習フレームワークを提案する。
本手法は, 逐次的意思決定問題において, 言語に対するより自然な条件付け方法を示す。
論文 参考訳(メタデータ) (2022-02-28T19:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。