論文の概要: KWBench: Measuring Unprompted Problem Recognition in Knowledge Work
- arxiv url: http://arxiv.org/abs/2604.15760v1
- Date: Fri, 17 Apr 2026 07:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.77792
- Title: KWBench: Measuring Unprompted Problem Recognition in Knowledge Work
- Title(参考訳): KWBench: 知識労働における予期せぬ問題認識の測定
- Authors: Ankit Maloo,
- Abstract要約: KWBenchは、大規模言語モデルにおける未証明問題認識のベンチマークである。
解決しようとする前に、プロのシナリオを特定することができます。
これには、買収、契約交渉、臨床薬局、組織政治、詐欺分析、インセンティブデザインを含む223の業務が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first version of KWBench (Knowledge Work Bench), a benchmark for unprompted problem recognition in large language models: can an LLM identify a professional scenario before attempting to solve it. Existing frontier benchmarks have saturated, and most knowledge-work evaluations to date reduce to extraction or task completion against a specification. KWBench targets the step before that: recognizing the governing structure of the situation from raw inputs alone. The benchmark contains 223 tasks sourced from practitioners across acquisitions, contract negotiations, clinical pharmacy, organizational politics, fraud analysis, and incentive design. Each task encodes a formal game-theoretic pattern (principal-agent conflict, signaling, mechanism design failure, strategic omission, coalitional dynamics, strategic interdependence) and carries structured ground truth recording the expert reading of the situation and the anticipated failure modes. Models receive raw data and a task prompt with no indication of problem type. Scoring is a three-tier rubric gated by a mandatory conjunctive check. Mandatory criteria encode the predicted wrong paths. We evaluate 16 models. The best model passes on 27.9% of tasks. The top two models agree on only 31.7% of their passes. Among the top 8, 44 tasks are solved by exactly one model; routing across the top 8 covers 50.7% of the benchmark, nearly double the best single model. Conditional on passing, quality scores converge (approx 83% across models); unconditional scores do not. Same models articulate the relevant game-theoretic concept correctly when asked, then fail to apply it unprompted. We release KWBench to shift how frontier models are evaluated on knowledge work, scoring them on whether they recognize the right problem from the situation alone, not only on how well they execute once the problem has been framed for them.
- Abstract(参考訳): KWBench(Knowledge Work Bench)の最初のバージョンは、大規模言語モデルにおける未解決問題認識のためのベンチマークであり、LLMはそれを解決する前にプロのシナリオを特定できる。
既存のフロンティアベンチマークは飽和しており、ほとんどの知識-作業評価は仕様に対する抽出やタスク完了に還元されている。
KWBenchはその前のステップを目標としています。
このベンチマークには、買収、契約交渉、臨床薬局、組織政治、詐欺分析、インセンティブデザインなど、実践者から得られた223のタスクが含まれている。
各タスクは、形式的なゲーム理論パターン(プリンシパル・エージェント・コンフリクト、シグナリング、メカニズム設計の失敗、戦略的省略、連立力学、戦略的相互依存)を符号化し、状況と予測される障害モードの専門家の読みを記録した構造化された地上真実を運ぶ。
モデルは生データとタスクプロンプトを受け取り、問題タイプの表示はない。
スコーリング(Scoring)は、必須の連結チェックによってゲートされる3層ルーブリックである。
強制基準は予測された間違った経路を符号化する。
16モデルの評価を行った。
最高のモデルは27.9%のタスクをパスします。
上位2機種は31.7%のパスで一致している。
上位8つのうち44のタスクは、正確に1つのモデルによって解決される。
通過の条件では、品質スコアは収束する(モデル全体で83%)。
同じモデルは、要求されたときに関連するゲーム理論の概念を正しく表現し、そしてそれを適用できない。
我々はKWBenchをリリースし、フロンティアモデルが知識労働でどのように評価されるのかをシフトさせ、適切な問題を認識しているかどうかを状況だけで評価する。
関連論文リスト
- HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help? [32.54022440678003]
コーディングエージェントは、完全なコンテキストが与えられたときに複雑なタスクを解決します。
現在のベンチマークは、この障害モードに盲目です。
我々はこの選択的エスカレーションスキルを測定するためにHiL-Benchを提案する。
論文 参考訳(メタデータ) (2026-04-10T15:21:44Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Zero-Shot Commonsense Validation and Reasoning with Large Language Models: An Evaluation on SemEval-2020 Task 4 Dataset [0.16385815610837165]
本研究では,SemEval-2020 Task 4データセット上でのLarge Language Models(LLM)の性能を評価する。
モデルは、タスクA(Commonsense Validation)とタスクB(Commonsense Explanation)の2つのタスクでテストされる。
結果、LLaMA3-70BはタスクAで98.40%の最高精度を達成し、タスクBで93.40%の旧モデルより遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-19T12:40:49Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Detecting Problem Statements in Peer Assessments [12.993637157790143]
18,000件以上のレビューコメントは、レビュー担当者によって、作業上の問題を検出するか、検出しないかのどちらかとしてラベル付けされたものです。
従来の機械学習モデルや、GloVeとBERTの埋め込みを使ったニューラルネットワークモデルも展開しています。
論文 参考訳(メタデータ) (2020-05-30T03:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。