論文の概要: TaskSense: Cognitive Chain Modeling and Difficulty Estimation for GUI Tasks
- arxiv url: http://arxiv.org/abs/2511.09309v1
- Date: Thu, 13 Nov 2025 01:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.510074
- Title: TaskSense: Cognitive Chain Modeling and Difficulty Estimation for GUI Tasks
- Title(参考訳): TaskSense:GUIタスクの認知的連鎖モデリングと難易度推定
- Authors: Yiwen Yin, Zhian Hu, Xiaoxi Xu, Chun Yu, Xintong Wu, Wenyu Fan, Yuanchun Shi,
- Abstract要約: 本稿では,認知的視点からタスクの難易度をモデル化する新しいフレームワークであるCognitive Chainを提案する。
認知連鎖は、運動行動の前に認知過程を一連の認知ステップに分解する。
線形回帰による検証は、我々の推定認知困難度がユーザ完了時間とよく相関していることを示している。
エージェントトレーニング、能力評価、人間エージェントデリゲーション最適化における潜在的な応用について論じる。
- 参考スコア(独自算出の注目度): 24.96027752577544
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Measuring GUI task difficulty is crucial for user behavior analysis and agent capability evaluation. Yet, existing benchmarks typically quantify difficulty based on motor actions (e.g., step counts), overlooking the cognitive demands underlying task completion. In this work, we propose Cognitive Chain, a novel framework that models task difficulty from a cognitive perspective. A cognitive chain decomposes the cognitive processes preceding a motor action into a sequence of cognitive steps (e.g., finding, deciding, computing), each with a difficulty index grounded in information theories. We develop an LLM-based method to automatically extract cognitive chains from task execution traces. Validation with linear regression shows that our estimated cognitive difficulty correlates well with user completion time (step-level R-square=0.46 after annotation). Assessment of state-of-the-art GUI agents shows reduced success on cognitively demanding tasks, revealing capability gaps and Human-AI consistency patterns. We conclude by discussing potential applications in agent training, capability assessment, and human-agent delegation optimization.
- Abstract(参考訳): GUIタスクの難易度の測定は,ユーザの行動分析とエージェント能力評価に不可欠である。
しかし、既存のベンチマークは一般的に、タスク完了の根底にある認知的要求を見越して、運動行動(例えば、ステップカウント)に基づいて困難を定量化します。
本研究では,認知的視点からタスクの難易度をモデル化する新しいフレームワークであるCognitive Chainを提案する。
認知連鎖は、運動行動の前に認知過程を一連の認知ステップ(例えば、探索、決定、計算)に分解する。
タスク実行トレースから認知的連鎖を自動的に抽出するLLM法を開発した。
線形回帰による検証により, 予測された認知困難度は, ユーザ完了時間(アノテーション後のステップレベルR-square=0.46)とよく相関していることがわかった。
最先端のGUIエージェントの評価は、認知的に要求されるタスクの成功を減らし、能力ギャップとヒューマン-AI整合性パターンを明らかにする。
エージェントトレーニング、能力評価、人間エージェントデリゲーション最適化における潜在的な応用について論じる。
関連論文リスト
- Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots [13.26825865228582]
ロボット操作タスクのためのVLAモデルに特化して設計された8つの不確実性指標と5つの品質指標を提案する。
我々は,3つの最先端VLAモデルから908のタスク実行を成功させる大規模実証実験により,その有効性を評価する。
論文 参考訳(メタデータ) (2025-07-22T22:15:59Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - Unlocking Structured Thinking in Language Models with Cognitive Prompting [0.0]
大規模言語モデル(LLM)における問題解決を導く新しいアプローチとして認知的プロンプトを提案する。
本稿では,認知操作の決定論的シーケンス,自己適応型,ハイブリッド型という3つの変種を紹介する。
LLaMA, Gemma2, Qwenの各モデルの算術的推論ベンチマークGSM8Kにおける実験により、認知的プロンプトは標準的な質問応答に比べて性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-03T19:53:47Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。