論文の概要: AI-Assisted Systematization for Evaluating GenAI Systems
- arxiv url: http://arxiv.org/abs/2605.26001v1
- Date: Mon, 25 May 2026 16:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.463326
- Title: AI-Assisted Systematization for Evaluating GenAI Systems
- Title(参考訳): GenAIシステム評価のためのAI支援システム
- Authors: Dhruv Agarwal, Emily Sheng, Chad Atalla, Jean Garcia-Gathright, Hussein Mozannar, Hannah Washington, Alexandra Chouldechova, Solon Barocas, Hanna Wallach,
- Abstract要約: 我々は,2つの概念のコンセプト仕様を作成するために,AIを利用した2つのシステムライザを開発した。
コンテントの妥当性と情報回復性に関する概念仕様を評価した。
- 参考スコア(独自算出の注目度): 45.6388922756291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating generative AI (GenAI) systems is challenging because many targets of evaluation are broad, contested concepts, such as "reasoning," "fairness," or "creativity." When these concepts are left underspecified, it becomes unclear what should be measured or how evaluation results should be interpreted. This problem reflects a missing step: systematization, that is, moving from a broad background concept to an explicit, structured account of the concept in measurable terms. To help address the fact that systematization is cognitively demanding and resource-intensive, we investigate whether AI assistance can support this process. To enable AI-assisted systematization and assess its quality, we introduce a structured representation of a systematized concept, a concept spec, and a validation worksheet. We then develop two AI-assisted systematizers: a direct, zero-shot approach and a multi-agent approach that more closely mirrors manual systematization approaches from existing literature. We use these systematizers to produce concept specs for two concepts -- hate-based rhetoric and digital empathy -- and evaluate resulting concept specs on content validity and information recoverability.
- Abstract(参考訳): ジェネレーティブAI(GenAI)システムの評価は、多くの評価対象が広く、"推論"、"フェアネス"、"創造性"といった概念に異議を唱えているため、難しい。
これらの概念を未特定のまま残すと、何を測定するべきか、どのように評価結果を解釈すべきかがはっきりしない。
この問題は、体系化(systematization)、すなわち、広い背景の概念から、測定可能な用語で概念を明示的で構造化された説明に移行するという、欠落したステップを反映している。
システム化が認知的に要求され、資源集約化されているという事実に対処するために、AI支援がこのプロセスを支援することができるかどうかを検討する。
AIによるシステム化を実現し,その品質を評価するために,システム化された概念,概念仕様,検証用ワークシートの構造化表現を導入する。
次に、直接ゼロショットアプローチと、既存の文献から手動の体系化アプローチをより密接に反映するマルチエージェントアプローチという、2つのAI支援型システムライザを開発します。
これらのシステム化装置を用いて、ヘイトベースのレトリックとデジタル共感という2つの概念の概念仕様を作成し、コンテンツの有効性と情報回復性に関する概念仕様を評価する。
関連論文リスト
- A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms [49.66022971508878]
私たちは、推論はモジュラーコンポーネントからシステムの認知コアに高めるべきだと論じています。
応答性推論のトレードオフやソーシャルゲーム推論など,7つの中核的推論課題を導出し,体系化する。
我々は,LLMに基づく推論と,ミリ秒スケールで安全クリティカルな車両制御の要求との間の,高レイテンシ,熟考的特性の根本的かつ未解決な緊張関係を同定する。
論文 参考訳(メタデータ) (2026-03-11T07:40:53Z) - Just aware enough: Evaluating awareness across artificial systems [0.0]
私たちは、AI意識よりも生産的で方法論的に学習可能な代替手段を、意識が提供してくれると論じています。
多様なシステムにまたがって意識を評価するための実践的手法を提案する。
論文 参考訳(メタデータ) (2026-01-21T11:39:35Z) - Explainability Through Systematicity: The Hard Systematicity Challenge for Artificial Intelligence [0.0]
本稿は、AI(人工知能)に対する私たちの期待を形作る、より広い理想の1つの側面である、と論じる。
語句の4つの感覚を区別する「思考の体系性」を考えるための概念的枠組みを提供する。
体系性のこの理想にAIモデルを保持する理由があるかどうかを判断するために、私は、体系化の合理性に目を向けなければならないと論じます。
論文 参考訳(メタデータ) (2025-07-29T19:50:21Z) - A Conceptual Framework for AI Capability Evaluations [0.0]
本稿では,AI能力評価を解析するための概念的枠組みを提案する。
広く使われている手法や用語の分析を体系化する構造化された記述的アプローチを提供する。
また、研究者は方法論的な弱点を特定し、評価を設計する実践者を支援し、政策立案者に複雑な評価の風景を精査し、比較し、ナビゲートするツールを提供する。
論文 参考訳(メタデータ) (2025-06-23T00:19:27Z) - Position: Evaluating Generative AI Systems Is a Social Science Measurement Challenge [78.35388859345056]
我々は,MLコミュニティが,GenAIシステム評価のための計測機器を開発する際に,社会科学の学習と図面の恩恵を受けることを論じる。
我々は,GenAIシステムの能力,行動,および影響に関する概念を測定するための,社会科学からの計測理論に基づく4段階の枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-01T21:09:51Z) - Towards Human Cognition Level-based Experiment Design for Counterfactual
Explanations (XAI) [68.8204255655161]
XAI研究の重点は、より理解を深めるために、より実践的な説明アプローチに変わったようだ。
認知科学研究がXAIの進歩に大きく影響を与える可能性のある領域は、ユーザの知識とフィードバックを評価することである。
本研究では,異なる認知レベルの理解に基づく説明の生成と評価を実験する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T19:20:22Z) - Evaluating Understanding on Conceptual Abstraction Benchmarks [0.0]
AIの長期的な目標は、人間のような方法で概念を理解するシステムを構築することである。
概念を理解するには、さまざまなコンテキストでそれを使う能力が必要である、と私たちは主張する。
我々の概念に基づく評価アプローチは、従来のテストセットが隠したはずのAIシステムに関する情報を明らかにする。
論文 参考訳(メタデータ) (2022-06-28T17:52:46Z) - A Human-Centric Assessment Framework for AI [11.065260433086024]
説明可能なAIシステムをどのように評価すべきかに関して合意された基準はない。
チューリングテストに触発されて,人間中心のアセスメントフレームワークを導入する。
このセットアップは、広範囲の人間中心のAIシステムアセスメントのためのフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-05-25T12:59:13Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Towards an Interface Description Template for AI-enabled Systems [77.34726150561087]
再利用(Reuse)は、システムアーキテクチャを既存のコンポーネントでインスタンス化しようとする、一般的なシステムアーキテクチャのアプローチである。
現在、コンポーネントが当初目的としていたものと異なるシステムで運用する可搬性を評価するために必要な情報の選択をガイドするフレームワークは存在しない。
我々は、AI対応コンポーネントの主情報をキャプチャするインターフェイス記述テンプレートの確立に向けて、現在進行中の作業について述べる。
論文 参考訳(メタデータ) (2020-07-13T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。