論文の概要: Remote Labor Index: Measuring AI Automation of Remote Work
        - arxiv url: http://arxiv.org/abs/2510.26787v1
 - Date: Thu, 30 Oct 2025 17:58:04 GMT
 - ステータス: 翻訳完了
 - システム内更新日: 2025-10-31 16:05:09.967989
 - Title: Remote Labor Index: Measuring AI Automation of Remote Work
 - Title(参考訳): リモート労働指標: リモートワークのAI自動化を測定する
 - Authors: Mantas Mazeika, Alice Gatti, Cristina Menghini, Udari Madhushani Sehwag, Shivam Singhal, Yury Orlovskiy, Steven Basart, Manasi Sharma, Denis Peskoff, Elaine Lau, Jaehyuk Lim, Lachlan Carroll, Alice Blair, Vinaya Sivakumar, Sumana Basu, Brad Kenstler, Yuntao Ma, Julian Michael, Xiaoke Li, Oliver Ingebretsen, Aditya Mehta, Jean Mottola, John Teichmann, Kevin Yu, Zaina Shaik, Adam Khoja, Richard Ren, Jason Hausenloy, Long Phan, Ye Htet, Ankit Aich, Tahseen Rabbani, Vivswan Shah, Andriy Novykov, Felix Binder, Kirill Chugunov, Luis Ramirez, Matias Geralnik, Hernán Mesura, Dean Lee, Ed-Yeremai Hernandez Cardona, Annette Diamond, Summer Yue, Alexandr Wang, Bing Liu, Ernesto Hernandez, Dan Hendrycks, 
 - Abstract要約: AIは、研究指向の知識と推論のベンチマークを急速に進歩させたが、これらの成果が経済的価値と自動化にどのように変換されるかは、まだ不明である。
これを測定するために、実世界の経済的に価値のあるプロジェクトからなる広範囲にわたるマルチセクタベンチマークであるRemote Labor Index (RLI)を導入する。
 - 参考スコア(独自算出の注目度): 46.53553410123801
 - License: http://creativecommons.org/licenses/by/4.0/
 - Abstract:   AIs have made rapid progress on research-oriented benchmarks of knowledge and reasoning, but it remains unclear how these gains translate into economic value and automation. To measure this, we introduce the Remote Labor Index (RLI), a broadly multi-sector benchmark comprising real-world, economically valuable projects designed to evaluate end-to-end agent performance in practical settings. AI agents perform near the floor on RLI, with the highest-performing agent achieving an automation rate of 2.5%. These results help ground discussions of AI automation in empirical evidence, setting a common basis for tracking AI impacts and enabling stakeholders to proactively navigate AI-driven labor automation. 
 - Abstract(参考訳): AIは、研究指向の知識と推論のベンチマークを急速に進歩させたが、これらの成果が経済的価値と自動化にどのように変換されるかは、まだ不明である。
これを測定するために,実践的な環境下でのエンド・ツー・エンドエージェントのパフォーマンスを評価するために設計された,実世界の経済的価値の高いプロジェクトからなる多分野ベンチマークであるRemote Labor Index(RLI)を導入する。
AIエージェントはRLIの床の近くで動作し、最も高いパフォーマンスのエージェントは2.5%の自動化速度を達成する。
これらの結果は、実証的な証拠の中でAI自動化に関する議論の基礎となり、AIの影響を追跡するための共通基盤を設定し、利害関係者がAI駆動の労働自動化を積極的にナビゲートできるようにする。
 
       
      
        関連論文リスト
        - ML-Master: Towards AI-for-AI via Integration of Exploration and   Reasoning [49.25518866694287]
本稿では,探索と推論をシームレスに統合する新しいAI4AIエージェントであるML-Masterを提案する。
我々はML-MasterをMLE-Benchで評価し、平均メダル率29.3%を達成し、既存の手法をはるかに上回っている。
論文  参考訳(メタデータ) (2025-06-19T17:53:28Z) - AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [70.33796196103499]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。
既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。
適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文  参考訳(メタデータ) (2025-06-12T17:59:32Z) - Measuring Data Science Automation: A Survey of Evaluation Tools for AI   Assistants and Agents [9.675331256405443]
大規模言語モデル(LLM)は、データサイエンスのアシスタントとしてますます使われている。
本稿では,データサイエンスのためのLLMアシスタントとエージェントの評価について調査する。
論文  参考訳(メタデータ) (2025-06-10T13:47:22Z) - E2E Process Automation Leveraging Generative AI and IDP-Based Automation   Agent: A Case Study on Corporate Expense Processing [1.5728609542259502]
本稿では,現代デジタルトランスフォーメーションにおけるインテリジェントな作業自動化手法を提案する。
生成AIとインテリジェントドキュメント処理技術とオートメーションエージェントを統合し、企業の財政的経費処理タスクのエンドツーエンド(E2E)自動化を実現する。
論文  参考訳(メタデータ) (2025-05-27T05:21:08Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive   Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文  参考訳(メタデータ) (2025-03-09T01:13:56Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World   Tasks [55.03911355902567]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。
最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。
これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文  参考訳(メタデータ) (2024-12-18T18:55:40Z) - Assessing the Performance of Human-Capable LLMs -- Are LLMs Coming for   Your Job? [0.0]
SelfScoreは、ヘルプデスクとプロのコンサルティングタスクにおけるLLM(Large Language Model)の自動エージェントのパフォーマンスを評価するために設計されたベンチマークである。
このベンチマークは、問題の複雑さと応答の助け、スコアリングシステムにおける透明性と単純さの確保に関するエージェントを評価する。
この研究は、特にAI技術が優れている地域では、労働者の移動の可能性への懸念を提起している。
論文  参考訳(メタデータ) (2024-10-05T14:37:35Z) - Induction and Exploitation of Subgoal Automata for Reinforcement
  Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。
ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文  参考訳(メタデータ) (2020-09-08T16:42:55Z) 
        関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
       
     
      指定された論文の情報です。
      本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。