論文の概要: Tendem: A Hybrid AI+Human Platform
- arxiv url: http://arxiv.org/abs/2602.01119v1
- Date: Sun, 01 Feb 2026 09:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.604202
- Title: Tendem: A Hybrid AI+Human Platform
- Title(参考訳): Tendem: ハイブリッドAI+Humanプラットフォーム
- Authors: Konstantin Chernyshev, Ekaterina Artemova, Viacheslav Zhukov, Maksim Nerush, Mariia Fedorova, Iryna Repik, Olga Shapovalova, Aleksey Sukhorosov, Vladimir Dobrovolskii, Natalia Mikhailova, Sergei Tilga,
- Abstract要約: Tendemは、AIが構造化された繰り返し作業を処理するハイブリッドシステムであり、モデルが失敗したり、結果を検証する場合に、ヒューマンエキスパートがステップインする。
テネデムの性能を評価するため,94個の実世界のタスクについて,室内での一連の評価を行った。
- 参考スコア(独自算出の注目度): 3.9177738683910537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tendem is a hybrid system where AI handles structured, repeatable work and Human Experts step in when the models fail or to verify results. Each result undergoes a comprehensive quality review before delivery to the Client. To assess Tendem's performance, we conducted a series of in-house evaluations on 94 real-world tasks, comparing it with AI-only agents and human-only workflows carried out by Upwork freelancers. The results show that Tendem consistently delivers higher-quality outputs with faster turnaround times. At the same time, its operational costs remain comparable to human-only execution. On third-party agentic benchmarks, Tendem's AI Agent (operating autonomously, without human involvement) performs near state-of-the-art on web browsing and tool-use tasks while demonstrating strong results in frontier domain knowledge and reasoning.
- Abstract(参考訳): Tendemは、AIが構造化された繰り返し作業を処理するハイブリッドシステムであり、モデルが失敗したり、結果を検証する場合に、ヒューマンエキスパートがステップインする。
それぞれの結果は、クライアントに配信する前に包括的な品質レビューが行われます。
実世界のタスク94件について,AIのみのエージェントと,Upworkフリーランサーによる人間のみのワークフローとの比較を行い,そのパフォーマンス評価を行った。
結果は、Tendemが常に高速なターンアラウンドタイムで高品質なアウトプットを提供することを示している。
同時に、運用コストは人間のみの実行に匹敵する。
サードパーティのエージェントベンチマークでは、TendemのAI Agent(人間の関与なしに自律的に動作する)がWebブラウジングとツール使用タスクの最先端で実行し、フロンティアドメインの知識と推論において強力な結果を示している。
関連論文リスト
- How AI Agents Follow the Herd of AI? Network Effects, History, and Machine Optimism [7.1683021355290295]
本研究では,AIエージェントがネットワーク効果ゲームをどのようにナビゲートするかを検討する。
本稿では,大規模言語モデル(LLM)に基づくエージェントを用いた新しいワークフロー設計を提案する。
論文 参考訳(メタデータ) (2025-12-12T12:14:48Z) - How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse Occupations [112.57167042285437]
エージェントが人間とエージェントの労働者の直接比較を初めて提示することで、エージェントがどのように人間の仕事をするかを考察する。
結果が88.3%速く、コストが90.4-96.2%低いことが判明した。
論文 参考訳(メタデータ) (2025-10-26T18:10:22Z) - Modeling AI-Human Collaboration as a Multi-Agent Adaptation [0.0]
タスクの関数としてAIと人間のコラボレーションを形式化するエージェントベースのシミュレーションを開発する。
モジュラータスクでは、AIが人間の代わりになることが多いことを示します。
また、記憶や構造が欠如している「幻覚的」AIでさえ、ローカルオプティマから逃れることによって、低能力な人間を増強することで、結果を改善することも示しています。
論文 参考訳(メタデータ) (2025-04-29T16:19:53Z) - An Illusion of Progress? Assessing the Current State of Web Agents [61.742657650092845]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。
結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。
オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文 参考訳(メタデータ) (2025-04-02T05:51:29Z) - Towards the Terminator Economy: Assessing Job Exposure to AI through LLMs [10.844598404826355]
米国の雇用の3分の1はAIに強く依存しており、主に大学院または大学院の教育を必要とする高度な職業で行われている。
高度な職業であっても、AIはタスク置換において高い多様性を示し、AIと人間は同じ職業の中で相互に補完することを示唆している。
すべての結果、モデル、コードはオンラインで公開されており、コミュニティが結果を再現し、結果を比較し、私たちの仕事をベンチマークとして使用して、時間とともにAIの進捗を監視します。
論文 参考訳(メタデータ) (2024-07-27T08:14:18Z) - Evaluating Multimodal Interactive Agents [14.936474798718653]
標準化テストスイート(STS)と呼ばれる新しい評価手法を提案する。
STSでは、実際のヒューマンインタラクションデータから抽出された振る舞いシナリオを使用している。
高速で、制御され、解釈可能で、自然主義的な相互作用を代表している。
論文 参考訳(メタデータ) (2022-05-26T11:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。