論文の概要: HAI-Eval: Measuring Human-AI Synergy in Collaborative Coding
- arxiv url: http://arxiv.org/abs/2512.04111v1
- Date: Sun, 30 Nov 2025 21:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.781753
- Title: HAI-Eval: Measuring Human-AI Synergy in Collaborative Coding
- Title(参考訳): HAI-Eval:協調符号化における人間とAIの相乗効果の測定
- Authors: Hanjun Luo, Chiming Ni, Jiaheng Wen, Zhimu Huang, Yiran Wang, Bingduo Liao, Sylvia Chung, Yingbin Jin, Xinfeng Li, Wenyuan Xu, XiaoFeng Wang, Hanan Salam,
- Abstract要約: コーディングにおける人間-AIパートナーシップの相乗効果を測定するために設計された統合ベンチマークであるHAI-Evalを紹介する。
HAI-Evalの核となるイノベーションは、スタンドアロンのLLMと未解決の人間の両方にとって魅力的な、"コラボレーション・必要"問題テンプレートである。
本研究は45名の被験者を対象に,4つの異なるレベルの人的介入の下で5つの最先端のLDMに対して,その性能をベンチマークした。
- 参考スコア(独自算出の注目度): 18.92893461356103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-powered coding agents are reshaping the development paradigm. However, existing evaluation systems, neither traditional tests for humans nor benchmarks for LLMs, fail to capture this shift. They remain focused on well-defined algorithmic problems, which excludes problems where success depends on human-AI collaboration. Such collaborative problems not only require human reasoning to interpret complex contexts and guide solution strategies, but also demand AI efficiency for implementation. To bridge this gap, we introduce HAI-Eval, a unified benchmark designed to measure the synergy of human-AI partnership in coding. HAI-Eval's core innovation is its "Collaboration-Necessary" problem templates, which are intractable for both standalone LLMs and unaided humans, but solvable through effective collaboration. Specifically, HAI-Eval uses 45 templates to dynamically create tasks. It also provides a standardized IDE for human participants and a reproducible toolkit with 450 task instances for LLMs, ensuring an ecologically valid evaluation. We conduct a within-subject study with 45 participants and benchmark their performance against 5 state-of-the-art LLMs under 4 different levels of human intervention. Results show that standalone LLMs and unaided participants achieve poor pass rates (0.67% and 18.89%), human-AI collaboration significantly improves performance to 31.11%. Our analysis reveals an emerging co-reasoning partnership. This finding challenges the traditional human-tool hierarchy by showing that strategic breakthroughs can originate from either humans or AI. HAI-Eval establishes not only a challenging benchmark for next-generation coding agents but also a grounded, scalable framework for assessing core developer competencies in the AI era. Our benchmark and interactive demo will be openly accessible.
- Abstract(参考訳): LLMによるコーディングエージェントは、開発パラダイムを再構築している。
しかし、既存の評価システム、人間の従来のテストもLLMのベンチマークも、このシフトを捉えていない。
これは、成功が人間とAIのコラボレーションに依存する問題を除く。
このような協調的な問題は、複雑なコンテキストを解釈し、ソリューション戦略を導くために人間の推論を必要とするだけでなく、実装のためのAI効率も要求する。
このギャップを埋めるために、コーディングにおける人間-AIパートナーシップの相乗効果を測定するために設計された統一ベンチマークであるHAI-Evalを導入する。
HAI-Evalの核となる革新は「コラボレーション・必要」問題テンプレートである。
具体的には、HAI-Evalは45のテンプレートを使用してタスクを動的に生成する。
また、人間のための標準化されたIDEと、LCMのための450のタスクインスタンスを備えた再現可能なツールキットを提供し、生態学的に有効な評価を保証する。
本研究は45名の被験者を対象に,4つの異なるレベルの人的介入の下で5つの最先端のLDMに対して,その性能をベンチマークした。
結果は、スタンドアローンのLCMと未発表の参加者が低合格率(0.67%と18.89%)を達成したことを示し、人間とAIのコラボレーションはパフォーマンスを31.11%向上させた。
私たちの分析では、新たな共同関係が明らかになりました。
この発見は、戦略的なブレークスルーが人間またはAIから生じる可能性があることを示すことによって、従来のヒューマンツール階層に挑戦する。
HAI-Evalは、次世代のコーディングエージェントのための挑戦的なベンチマークだけでなく、AI時代のコア開発者の能力を評価するための基盤的かつスケーラブルなフレームワークも確立している。
私たちのベンチマークとインタラクティブなデモは、オープンにアクセスできます。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - Learning to Complement with Multiple Humans [21.247853435529446]
本稿では,LECOMH(Learning to Complement with Multiple Humans)アプローチを紹介する。
LECOMHは、クリーンなラベルに依存することなくノイズの多いラベルから学習し、協調的精度を最大化するように設計されている。
HAI-CC法を評価するために, トレーニングとテストの両方のための複数のノイズラベルを特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-22T05:31:06Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。