論文の概要: AI Judges in Design: Statistical Perspectives on Achieving Human Expert Equivalence With Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.00938v1
- Date: Tue, 01 Apr 2025 16:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:05.294816
- Title: AI Judges in Design: Statistical Perspectives on Achieving Human Expert Equivalence With Vision-Language Models
- Title(参考訳): デザインにおけるAI判断 - ビジョンランゲージモデルによる人間の専門家等価性獲得に関する統計的視点
- Authors: Kristen M. Edwards, Farnaz Tehranchi, Scarlett R. Miller, Faez Ahmed,
- Abstract要約: 本稿では、AI審査員のレーティングが人間の専門家のレーティングと一致するかどうかを判断する厳密な統計枠組みを提案する。
この枠組みを,VLMに基づく4人の審査員を主要な設計基準で評価するケーススタディに適用する。
その結果,トップパフォーマンスのAI審査員は,一意性や描画品質に関する専門家レベルの合意を達成できることがわかった。
- 参考スコア(独自算出の注目度): 3.092385483349516
- License:
- Abstract: The subjective evaluation of early stage engineering designs, such as conceptual sketches, traditionally relies on human experts. However, expert evaluations are time-consuming, expensive, and sometimes inconsistent. Recent advances in vision-language models (VLMs) offer the potential to automate design assessments, but it is crucial to ensure that these AI ``judges'' perform on par with human experts. However, no existing framework assesses expert equivalence. This paper introduces a rigorous statistical framework to determine whether an AI judge's ratings match those of human experts. We apply this framework in a case study evaluating four VLM-based judges on key design metrics (uniqueness, creativity, usefulness, and drawing quality). These AI judges employ various in-context learning (ICL) techniques, including uni- vs. multimodal prompts and inference-time reasoning. The same statistical framework is used to assess three trained novices for expert-equivalence. Results show that the top-performing AI judge, using text- and image-based ICL with reasoning, achieves expert-level agreement for uniqueness and drawing quality and outperforms or matches trained novices across all metrics. In 6/6 runs for both uniqueness and creativity, and 5/6 runs for both drawing quality and usefulness, its agreement with experts meets or exceeds that of the majority of trained novices. These findings suggest that reasoning-supported VLM models can achieve human-expert equivalence in design evaluation. This has implications for scaling design evaluation in education and practice, and provides a general statistical framework for validating AI judges in other domains requiring subjective content evaluation.
- Abstract(参考訳): 概念的スケッチのような初期のエンジニアリング設計の主観的な評価は、伝統的に人間の専門家に依存している。
しかし、専門家の評価は時間がかかり、高価で、時には矛盾する。
視覚言語モデル(VLM)の最近の進歩は、設計アセスメントを自動化する可能性をもっているが、これらのAI '`judges'' が人間の専門家と同等に機能することが不可欠である。
しかし、専門家の同値性を評価する既存の枠組みは存在しない。
本稿では、AI審査員のレーティングが人間の専門家のレーティングと一致するかどうかを判断する厳密な統計枠組みを提案する。
この枠組みを,VLMに基づく4人の審査員による重要な設計指標(特異性,創造性,有用性,図面品質)を評価するケーススタディに適用する。
これらのAIジャッジは、ユニモーダルとマルチモーダルプロンプト、推論時間推論など、さまざまなコンテキスト内学習(ICL)技術を採用している。
同じ統計フレームワークは、専門家平等のために訓練された3人の初心者を評価するために使用される。
結果から,テキストと画像ベースのICLを推論として用いたトップパフォーマンスAIの判断は,すべての指標において,ユニークさと品質,パフォーマンス,あるいはトレーニングされた初心者との適合性に関する専門家レベルの合意を達成していることがわかった。
6/6はユニークさと創造性の両方で実行され、5/6は品質と有用性の両方で実行されます。
これらの結果から, 推論支援型VLMモデルは, 設計評価において人間-専門的等価性を達成できることが示唆された。
これは、教育と実践における設計評価のスケーリングに影響を及ぼし、主観的コンテンツ評価を必要とする他の領域におけるAI判断を検証するための一般的な統計フレームワークを提供する。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Fairness Evaluation with Item Response Theory [10.871079276188649]
本稿では機械学習(ML)モデルにおける公平性を評価するための新しいFair-IRTフレームワークを提案する。
項目特性曲線(ICC)の詳細な説明は、特定の個人に対して提供される。
公平性評価ツールとしてのこのフレームワークの有効性を実証する実験を行った。
論文 参考訳(メタデータ) (2024-10-20T22:25:20Z) - How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence [0.9671462473115854]
大きな言語モデルを持つような生成AIは、革新的なアセスメント設計プラクティスの機会を生み出している。
本稿では,現在の業界ベンチマークである LLM ChatGPT4 アプリケーションの性能を探求するフレームワークを提案する。
この批判は、批判的思考スキルの観点から、彼らの質問の脆弱性を具体的かつターゲットに示します。
論文 参考訳(メタデータ) (2024-06-20T22:46:56Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic
Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。
その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。
この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文 参考訳(メタデータ) (2022-01-20T13:23:20Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。