論文の概要: Offloading Score: Measuring AI Reliance Through Counterfactual Workflows
- arxiv url: http://arxiv.org/abs/2605.29392v1
- Date: Thu, 28 May 2026 05:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.762945
- Title: Offloading Score: Measuring AI Reliance Through Counterfactual Workflows
- Title(参考訳): オフロードスコア:反ファクトワークフローによるAI信頼性の測定
- Authors: Vishakh Padmakumar, Lujain Ibrahim, Zora Zhiruo Wang, Jennifer Wang, Q. Vera Liao, Diyi Yang,
- Abstract要約: 私たちは、AIツールにオフロードされた認知活動の分断を定量化する、信頼度尺度であるオフロードスコアを導入します。
本研究は,本質的な計量妥当性評価と制御されたユーザスタディにより,オフロードスコアの検証を行う。
オフロードスコアは、時間制約設定における依存度を著しく高めることを示す。
- 参考スコア(独自算出の注目度): 70.84727355516559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI tools are increasingly integrated into real-world workflows. However, existing measures of reliance on these tools focus on AI output adoption or on self-reported indicators, rather than how task effort is distributed between users and tools. Here, we introduce offloading score, a measure of reliance that quantifies the fraction of cognitive effort offloaded to an AI tool. Offloading Score is simulation-based -- we construct a counterfactual workflow by estimating how the user would have completed the task without the tool, and then computing the fraction of steps saved by using the tool. We validate offloading score through intrinsic evaluations of metric validity, and a controlled user study ($n=40$) with developers performing programming tasks using AI tools. We vary time pressure to test whether reliance measures capture the known increase in reliance under time pressure. We show that offloading score detects significantly higher reliance in time-constrained settings ($+43\%$, $p=0.018$), while usage-based and self-reported baseline measures of reliance do not distinguish the conditions. We complement this with descriptive insights showing that higher reliance manifests as greater delegation of subtasks to the tool and more direct reuse of AI outputs. Finally, we demonstrate an approach of using offloading score in combination with target outcomes of a task (e.g., code understanding) to identify when reliance may be (in)appropriate. Our framework offers two contributions: an instrument users can apply to measure and reflect on their own reliance, and a quantitative signal that agent designers can utilize to mitigate overreliance.
- Abstract(参考訳): AIツールはますます現実世界のワークフローに統合されている。
しかし、これらのツールに依存する既存の手段は、ユーザーとツールの間でタスクの取り組みがどのように分散されているかではなく、AIのアウトプットの導入や自己報告された指標に重点を置いている。
ここでは、AIツールにオフロードされた認知活動の少なさを定量化する、信頼度尺度であるオフロードスコアを紹介する。
Scoreのオフロードはシミュレーションベースで、私たちは、ユーザがツールなしでタスクを完了したかを推定し、ツールを使用して保存されたステップのごく一部を計算することで、偽物ワークフローを構築します。
我々は,AIツールを用いてプログラミングタスクを行う開発者を対象に,本質的な計量妥当性評価と制御ユーザスタディ(n=40$)によるオフロードスコアの検証を行った。
我々は、時間的圧力の下で既知の信頼の増大を捉えているかどうかをテストするために、時間的圧力を変化させる。
オフロードスコアは、時間制約設定(+43\%$, $p=0.018$)において、はるかに高い信頼度を検出できるのに対し、使用量ベースおよび自己申告ベースライン尺度は、条件を区別しない。
我々は、ツールへのサブタスクの委譲とAI出力のより直接的な再利用として、より高い依存度を示す記述的な洞察でこれを補完する。
最後に、タスクの目標結果(例えば、コード理解)と組み合わせてオフロードスコアを使用して、依存が適切かどうかを識別するアプローチを示す。
我々のフレームワークは2つのコントリビューションを提供する: ユーザが自分の依存度を測定して反映するために応用できる楽器と、エージェント設計者が過度な信頼性を緩和するために利用できる定量的信号である。
関連論文リスト
- Intelligence Impact Quotient (IIQ): A Framework for Measuring Organizational AI Impact [0.5218478348453993]
インテリジェンス・インパクト・クオシエント(英: Intelligence Impact Quotient、IIQ)は、AIシステムが組織的な作業やその影響に一体化される深さを定量化する複合計量である。
我々は、異種ユーザとユニットの比較のために、生のインテリジェンス導入指数(IAI)と正規化された0-1000 IIQインデックスを作成します。
改訂された測定基準が、頻繁な低照度の使用、セマンティックな反復的なプロンプト、そしてより自律的で高精度なAI支援作業との違いをいかに区別しているかを示す。
論文 参考訳(メタデータ) (2026-05-14T06:51:20Z) - Time Series Augmented Generation for Financial Applications [0.10499611180329804]
本稿では,金融時系列分析のためのエージェントの推論を厳格に評価するための新しい評価手法とベンチマークを提案する。
本手法を我々のフレームワークであるTime Series Augmented Generationを用いた大規模実証研究に適用する。
その結果,幻覚を最小限に抑えることで,ほぼ完璧な道具使用精度を達成できることが示唆された。
論文 参考訳(メタデータ) (2026-04-21T16:20:59Z) - ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Statistical Uncertainty Quantification for Aggregate Performance Metrics in Machine Learning Benchmarks [0.0]
複数のタスクにまたがって集約されたメトリクスの不確かさを定量化するために,統計的手法がいかに用いられるかを示す。
これらの技術は、全体的なパフォーマンスが劣っているにもかかわらず、特定のタスクに対する特定のモデルの優位性のような洞察を浮き彫りにする。
論文 参考訳(メタデータ) (2025-01-08T02:17:34Z) - Towards Decoding Developer Cognition in the Age of AI Assistants [9.887133861477233]
本稿では,生理的計測(EEGとアイトラッキング)とインタラクションデータを組み合わせて,AI支援プログラミングツールの開発者による使用状況を調べるための制御された観察的研究を提案する。
私たちは、認知負荷とタスク完了時間を計測しながら、AIアシストの有無に関わらず、プログラムタスクを完了させるために、プロの開発者を募集します。
論文 参考訳(メタデータ) (2025-01-05T23:25:21Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。