論文の概要: Who is a Better Matchmaker? Human vs. Algorithmic Judge Assignment in a High-Stakes Startup Competition
- arxiv url: http://arxiv.org/abs/2510.12692v1
- Date: Tue, 14 Oct 2025 16:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.391972
- Title: Who is a Better Matchmaker? Human vs. Algorithmic Judge Assignment in a High-Stakes Startup Competition
- Title(参考訳): 優れたマッチメーカーは誰か? ハイテイクスタートアップコンペティションにおける人間対アルゴリズムの審査員指名
- Authors: Sarina Xi, Orelia Pi, Miaomiao Zhang, Becca Xiong, Jacqueline Ng Lane, Nihar B. Shah,
- Abstract要約: HLSE(Hybrid Lexical-Semantic similarity Ensemble)は、ハーバード・プレジデントのイノベーション・チャレンジで開発された。
我々は,309ドル対の審査員から得たブラインドマッチ品質スコアを用いて,人間の専門家による課題に対する評価を行った。
- 参考スコア(独自算出の注目度): 8.043059381325897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is growing interest in applying artificial intelligence (AI) to automate and support complex decision-making tasks. However, it remains unclear how algorithms compare to human judgment in contexts requiring semantic understanding and domain expertise. We examine this in the context of the judge assignment problem, matching submissions to suitably qualified judges. Specifically, we tackled this problem at the Harvard President's Innovation Challenge, the university's premier venture competition awarding over \$500,000 to student and alumni startups. This represents a real-world environment where high-quality judge assignment is essential. We developed an AI-based judge-assignment algorithm, Hybrid Lexical-Semantic Similarity Ensemble (HLSE), and deployed it at the competition. We then evaluated its performance against human expert assignments using blinded match-quality scores from judges on $309$ judge-venture pairs. Using a Mann-Whitney U statistic based test, we found no statistically significant difference in assignment quality between the two approaches ($AUC=0.48, p=0.40$); on average, algorithmic matches are rated $3.90$ and manual matches $3.94$ on a 5-point scale, where 5 indicates an excellent match. Furthermore, manual assignments that previously required a full week could be automated in several hours by the algorithm during deployment. These results demonstrate that HLSE achieves human-expert-level matching quality while offering greater scalability and efficiency, underscoring the potential of AI-driven solutions to support and enhance human decision-making for judge assignment in high-stakes settings.
- Abstract(参考訳): 複雑な意思決定タスクの自動化と支援に人工知能(AI)を適用することへの関心が高まっている。
しかし、セマンティックな理解とドメインの専門知識を必要とする文脈において、アルゴリズムが人間の判断とどのように比較するかは、まだ不明である。
審査員選任問題の文脈でこれを検証し、適度な審査員への応募に適合する。
具体的には、ハーバード大学のプレジデントによるイノベーションチャレンジ(Innovation Challenge)でこの問題に取り組みました。
これは、高品質な審査課題が不可欠である現実世界の環境を表している。
我々は,AIに基づく判断割当アルゴリズムであるHybrid Lexical-Semantic similarity Ensemble(HLSE)を開発し,競争に投入した。
そこで我々は,309ドル対の審査員によるブラインドマッチ品質スコアを用いて,人間の専門家による課題に対する評価を行った。
AUC=0.48, p=0.40$; 平均的なアルゴリズムマッチは3.90ドル、手動マッチは3.94ドルと評価され、5点は優れた一致を示す。
さらに、以前に1週間必要だった手動の割り当ては、デプロイ中にアルゴリズムによって数時間で自動化される可能性がある。
これらの結果から, HLSEは, より高いスケーラビリティと効率性を提供しながら, 人間の専門レベルの適合性を実現し, 高い評価条件下での判断のための人的意思決定を支援するAI駆動型ソリューションの可能性を強調した。
関連論文リスト
- Towards Human-AI Complementarity in Matching Tasks [18.703064369029022]
協調的なアプローチをとるデータ駆動型アルゴリズムマッチングシステムを提案する。
Comatchは最も自信のある決定のみを選択し、残りの決定を人間の意思決定者に委ねる。
その結果, マッチングによって生成されるマッチング結果が, ヒトの参加者, あるいはアルゴリズムのマッチングによって生成したマッチング結果よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-08-18T18:02:45Z) - Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。
このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。
私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文 参考訳(メタデータ) (2024-11-06T05:09:34Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Does AI help humans make better decisions? A statistical evaluation framework for experimental and observational studies [0.43981305860983716]
我々は、人間とAI、AIの3つの代替意思決定システムのパフォーマンスを比較する方法を示す。
リスクアセスメントの勧告は、現金保釈を課す裁判官の決定の分類精度を向上しないことがわかった。
論文 参考訳(メタデータ) (2024-03-18T01:04:52Z) - Rethinking Algorithmic Fairness for Human-AI Collaboration [29.334511328067777]
アルゴリズムフェアネスに対する既存のアプローチは、人間の意思決定者がアルゴリズムに完全に従えば、公平な結果を確保することを目的としている。
我々は、独立して公平で、コンプライアンスが不当に公正で、人間のポリシーよりも正確であるアルゴリズムレコメンデーションを設計することは不可能であることを示した。
論文 参考訳(メタデータ) (2023-10-05T16:21:42Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [70.45113777449373]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
既存のアルゴリズムを比較し、より良いアルゴリズムを開発する上で重要な課題は、公開された金標準データの欠如である。
研究コミュニティにリリースした類似度スコアの新しいデータセットを収集します。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - PoWareMatch: a Quality-aware Deep Learning Approach to Improve Human
Schema Matching [20.110234122423172]
そこで本研究では,ヒトのマッカーとしての行動に対する新たなアングルについて検討し,マッチ生成をプロセスとして研究する。
我々は、人間のマッチング決定を校正し、フィルタリングするディープラーニングメカニズムを利用するPoWareMatchを設計する。
PoWareMatchは、マッチを追加の対応で拡張するメリットを十分に予測し、高品質なマッチを生成する。
論文 参考訳(メタデータ) (2021-09-15T14:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。