論文の概要: Artificial Effort
- arxiv url: http://arxiv.org/abs/2605.23920v1
- Date: Fri, 17 Apr 2026 08:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.46629
- Title: Artificial Effort
- Title(参考訳): 人工的な努力
- Authors: Federico Belotti, Stefano Coniglio, Antonio Cosma, Francesco Fallucchi,
- Abstract要約: 自動化に抵抗するタスクはごくわずかだが、現在ではほとんどのタスクが正確かつ無視可能なコストで解決できる。
本研究は,教師なし環境における実情タスクの活用のための境界条件を確立した。
- 参考スコア(独自算出の注目度): 1.697437140819985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-effort tasks, in which participants perform cognitively costly activities whose outcomes depend on actual performance, are widely used in experimental economics. Their validity, however, rests on the assumption that a human performs them. We study whether this assumption still holds in the era of Artificial Intelligence (AI) and Large Language Models (LLMs). Using 8 canonical real-effort tasks and 23 LLMs from three major providers, we show that most tasks can now be solved accurately and at a negligible cost, while only a few resist automation. Performance improves with each model generation, and midtier models are rapidly closing the gap with frontier ones, broadening the set of widely accessible models that can automate these tasks. Additionally, we show that verbally offering monetary incentives has no effect on LLM performance. Our findings establish a boundary condition for the use of real-effort tasks in unsupervised settings: when participants can cheaply outsource task completion to an LLM, observed performance may no longer reflect genuine human effort.
- Abstract(参考訳): 実際の成果が実際のパフォーマンスに依存する認知的コストの高い活動を参加者が行うリアル・エフォート・タスクは、実験経済学で広く利用されている。
しかし、その正当性は、人間がそれらを実行するという仮定に基づいている。
この仮定が人工知能(AI)とLarge Language Models(LLMs)の時代に今も残っているかどうかを考察する。
8つの標準的リアルタイムタスクと3つの主要なプロバイダによる23のLLMを用いて、ほとんどのタスクは、自動化に抵抗するわずかながら、正確に、そして無視可能なコストで解決できることを示した。
モデル生成ごとにパフォーマンスが向上し、中間層モデルでは、フロンティアモデルとのギャップを急速に埋め、これらのタスクを自動化可能な、広くアクセス可能なモデルのセットを広げています。
さらに,金銭的インセンティブを口頭で提供することはLLMのパフォーマンスに影響を与えないことを示した。
本研究は, 作業完了をLLMに安価にアウトソースできる場合, 実際の人的努力を反映しないような, 実効性のある作業の限界条件を定めている。
関連論文リスト
- The Path of Self-Evolving Large Language Models: Achieving Data-Efficient Learning via Intrinsic Feedback [51.144727949988436]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める可能性を実証した。
本研究では,最小限のデータを用いたLLによるLLMの改善について検討する。
データ依存を最小限に抑えるため、自己認識に基礎を置いた2つの新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2025-10-03T06:32:10Z) - NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks [37.03331507197761]
既存のVisual-Language-Action(VLA)モデルは、ゼロショットシナリオで有望なパフォーマンスを示している。
これらのモデルは通常、大きなサイズのために高い計算オーバーヘッドに悩まされる。
本研究では,高いタスク性能を維持しつつ,計算オーバーヘッドを低減するモデルNORAを提案する。
論文 参考訳(メタデータ) (2025-04-28T14:47:34Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。