論文の概要: STaD: Scaffolded Task Design for Identifying Compositional Skill Gaps in LLMs
- arxiv url: http://arxiv.org/abs/2604.18177v2
- Date: Tue, 21 Apr 2026 05:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.943974
- Title: STaD: Scaffolded Task Design for Identifying Compositional Skill Gaps in LLMs
- Title(参考訳): STaD:LLMにおける構成スキルギャップの特定のための共有タスク設計
- Authors: Sungeun An, Swanand Ravindra Kadhe, Shailja Thakur, Chad DeLuca, Hima Patel,
- Abstract要約: Scaffolded Task Design (STaD) は、スキャフォールディングの概念に基づいて、ベンチマークタスクの制御されたバリエーションを生成する。
異なる構成の6つのモデルに対する実験により、3つの推論ベンチマークにおいて複数の障害点が示され、各モデルの特異かつ異なるスキルギャップが強調される。
- 参考スコア(独自算出の注目度): 6.7742619851836965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks are often used as a standard to understand LLM capabilities in different domains. However, aggregate benchmark scores provide limited insight into compositional skill gaps of LLMs and how to improve them. To make these weaknesses visible, we propose Scaffolded Task Design (STaD) framework. STaD generates controlled variations of benchmark tasks based on the concept of scaffolding, which introduces structured, incremental support in a step-by-step manner. Rather than inspecting failures individually, this approach enables systematic and scalable probing of model behavior by identifying the specific reasoning skill compositions they lack. Treating the LLM as a black box, our experiments on six models of varying sizes reveal multiple failure points in three reasoning benchmarks and highlight each model's unique and distinct skill gaps.
- Abstract(参考訳): ベンチマークは、異なるドメインにおけるLLM機能を理解するための標準としてしばしば使用される。
しかし、総合ベンチマークスコアは、LLMの構成スキルギャップとその改善方法に関する限られた洞察を与える。
これらの弱点を可視化するために,Scaffolded Task Design (STaD) フレームワークを提案する。
STaDは、段階的に構造化されたインクリメンタルなサポートを導入するスキャフォールディングの概念に基づいて、制御されたベンチマークタスクのバリエーションを生成する。
このアプローチは、個別に障害を検査するのではなく、それらが欠落する特定の推論スキル構成を特定することによって、モデル行動の体系的かつスケーラブルな探索を可能にする。
LLMをブラックボックスとして扱うことで、異なるサイズの6つのモデルに対する実験により、3つの推論ベンチマークにおいて複数の障害点が示され、各モデルのユニークかつ異なるスキルギャップが強調される。
関連論文リスト
- Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling [17.092510377905814]
マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。
本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するために、構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。
実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
論文 参考訳(メタデータ) (2025-06-13T08:04:56Z) - CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
そこで我々は,大言語モデル(LLM)とLVLM(Large Vision-Language Model)の推論能力を評価するためのベンチマークであるCrossWordBenchを紹介する。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界を強調し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives [54.14429346914995]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)による複雑な問題を解決する重要な方法となっている。
本稿では,LLMタスクを能力,スキル,知識の観点から再考する理論モデルであるRe-TASKフレームワークを紹介する。
多様な領域にわたる実験は、Re-TASKの有効性を示す。
論文 参考訳(メタデータ) (2024-08-13T13:58:23Z) - Recognizing Limits: Investigating Infeasibility in Large Language Models [7.321802034308729]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示しているが、多くの場合、その知識や能力を超えるクエリを処理できない。
本稿は,LLMが機能を超えた要求により,実現不可能なタスクを認識し,拒否する必要性に対処する。
論文 参考訳(メタデータ) (2024-08-11T22:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。