論文の概要: CL-bench: A Benchmark for Context Learning
- arxiv url: http://arxiv.org/abs/2602.03587v1
- Date: Tue, 03 Feb 2026 14:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.515177
- Title: CL-bench: A Benchmark for Context Learning
- Title(参考訳): CL-bench: コンテキスト学習のためのベンチマーク
- Authors: Shihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao,
- Abstract要約: この能力は人間が自然に持っているが、ほとんど見過ごされている重要な能力である。
我々は,500のコンテキスト,1,899のタスク,31,607の検証からなる実世界のベンチマークであるCL-benchを紹介する。
CL-benchは、この基本的な能力でLMを構築するためのステップであり、よりインテリジェントで、現実のシナリオでのデプロイメントを前進させる。
- 参考スコア(独自算出の注目度): 152.2879060355882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current language models (LMs) excel at reasoning over prompts using pre-trained knowledge. However, real-world tasks are far more complex and context-dependent: models must learn from task-specific context and leverage new knowledge beyond what is learned during pre-training to reason and resolve tasks. We term this capability context learning, a crucial ability that humans naturally possess but has been largely overlooked. To this end, we introduce CL-bench, a real-world benchmark consisting of 500 complex contexts, 1,899 tasks, and 31,607 verification rubrics, all crafted by experienced domain experts. Each task is designed such that the new content required to resolve it is contained within the corresponding context. Resolving tasks in CL-bench requires models to learn from the context, ranging from new domain-specific knowledge, rule systems, and complex procedures to laws derived from empirical data, all of which are absent from pre-training. This goes far beyond long-context tasks that primarily test retrieval or reading comprehension, and in-context learning tasks, where models learn simple task patterns via instructions and demonstrations. Our evaluations of ten frontier LMs find that models solve only 17.2% of tasks on average. Even the best-performing model, GPT-5.1, solves only 23.7%, revealing that LMs have yet to achieve effective context learning, which poses a critical bottleneck for tackling real-world, complex context-dependent tasks. CL-bench represents a step towards building LMs with this fundamental capability, making them more intelligent and advancing their deployment in real-world scenarios.
- Abstract(参考訳): 現在の言語モデル(LM)は、事前訓練された知識を用いたプロンプトの推論において優れている。
モデルはタスク固有のコンテキストから学び、タスクの推論と解決のための事前トレーニング中に学んだことを超えて、新しい知識を活用する必要があります。
この能力は人間が自然に持っているが、ほとんど見過ごされている重要な能力である。
CL-benchは,500の複雑なコンテキスト,1,899のタスク,31,607の検証ルーブリックからなる実世界のベンチマークで,いずれも経験豊富なドメインエキスパートによって開発された。
各タスクは、それを解決するために必要な新しいコンテンツが対応するコンテキストに含まれるように設計されている。
CLベンチでのタスクの解決には、新しいドメイン固有の知識、ルールシステム、複雑な手続きから、経験データから派生した法則まで、文脈から学ぶモデルが必要である。
これは、検索や理解を主にテストする長いコンテキストタスクや、モデルがインストラクションやデモを通じて単純なタスクパターンを学ぶコンテキスト内学習タスクに留まらない。
我々の10のフロンティアLMの評価では、平均して17.2%のタスクしか解けていない。
最高のパフォーマンスモデルであるGPT-5.1でさえ23.7%しか解決せず、LMが効果的な文脈学習をまだ達成していないことが判明した。
CL-benchは、この基本的な能力でLMを構築するためのステップであり、よりインテリジェントで、現実のシナリオでのデプロイメントを前進させる。
関連論文リスト
- Beyond Manuals and Tasks: Instance-Level Context Learning for LLM Agents [22.620674535292068]
大規模言語モデル(LLM)エージェントは通常、インタラクションインターフェースとグローバルルールを定義する環境レベルのマニュアルと、特定の目標に関連するタスクレベルのガイダンスまたはデモの2つの種類のコンテキストを受信する。
我々は、複雑なタスクにおいて、LLMエージェントの障害発生源としてインスタンスレベルのコンテキストが欠如していることを論じる。
我々は、この問題をインスタンスレベルコンテキスト学習(ILCL)として定式化し、それを解決するためのタスクに依存しない方法を紹介します。
論文 参考訳(メタデータ) (2025-09-29T05:38:51Z) - Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
本稿では,マルチショットICLによる長文言語モデルの評価について検討する。
ICLタスクを共通サンプル学習(SSL)と全サンプル学習(ASL)の2つのグループに分類するメトリクスを開発する。
最先端のモデルではSSLタスクで64kトークンまでパフォーマンスが向上するが、ASLタスクで16kトークンしかなかったため、多くのモデルは大幅なパフォーマンス低下を経験している。
論文 参考訳(メタデータ) (2024-11-11T17:00:59Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。