論文の概要: Position: Bayesian Statistics Facilitates Stakeholder Participation in Evaluation of Generative AI
- arxiv url: http://arxiv.org/abs/2504.15211v1
- Date: Mon, 21 Apr 2025 16:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 14:37:28.341516
- Title: Position: Bayesian Statistics Facilitates Stakeholder Participation in Evaluation of Generative AI
- Title(参考訳): 位置:ベイジアン統計は、ジェネレーティブAIの評価におけるステークホルダーの参加を促進する
- Authors: Yanan Long,
- Abstract要約: ジェネレーティブAI(GenAI)システムの評価は、公共政策や意思決定において重要な役割を果たす。
既存の手法はベンチマーク駆動の点推定比較に頼ることによって制限されることが多い。
本稿では,ベイズ統計学をこれらの課題に対処するための原則的枠組みとして活用することを主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The evaluation of Generative AI (GenAI) systems plays a critical role in public policy and decision-making, yet existing methods are often limited by reliance on benchmark-driven, point-estimate comparisons that fail to capture uncertainty and broader societal impacts. This paper argues for the use of Bayesian statistics as a principled framework to address these challenges. Bayesian methods enable the integration of domain expertise through prior elicitation, allow for continuous learning from new data, and provide robust uncertainty quantification via posterior inference. We demonstrate how Bayesian inference can be applied to GenAI evaluation, particularly in incorporating stakeholder perspectives to enhance fairness, transparency, and reliability. Furthermore, we discuss Bayesian workflows as an iterative process for model validation and refinement, ensuring robust assessments of GenAI systems in dynamic, real-world contexts.
- Abstract(参考訳): ジェネレーティブAI(GenAI)システムの評価は、公共政策や意思決定において重要な役割を担っているが、既存の手法は、不確実性やより広範な社会的影響を捉えることができないベンチマーク駆動のポイント推定比較に依存して制限されることが多い。
本稿では,ベイズ統計学をこれらの課題に対処するための原則的枠組みとして活用することを主張する。
ベイズ法は、事前の推論を通じてドメインの専門知識の統合を可能にし、新しいデータからの連続的な学習を可能にし、後部推論による堅牢な不確実性定量化を提供する。
ベイズ推論がGenAI評価にどのように適用できるかを実証し、特に公平性、透明性、信頼性を高めるためにステークホルダ視点を取り入れた。
さらに、モデル検証と改善の反復的なプロセスとしてベイズワークフローについて議論し、動的実世界の文脈におけるGenAIシステムのロバストな評価を保証する。
関連論文リスト
- Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges [13.526258635654882]
本研究では,大規模言語モデル(LLM)能力評価のためのベイズ的アプローチを提案する。
モデル機能を潜時変数として扱い、キュレートされたクエリセットを利用して識別応答を誘導する。
GPTシリーズモデルを用いた実験により,提案手法は従来の評価手法よりも優れた識別性が得られることが示された。
論文 参考訳(メタデータ) (2025-04-30T04:24:50Z) - Evaluation Framework for AI Systems in "the Wild" [37.48117853114386]
ジェネレーティブAI(GenAI)モデルは、業界全体で重要になっているが、現在の評価手法は、その普及に適応していない。
従来の評価は、しばしばベンチマークや固定データセットに依存し、実世界のパフォーマンスを反映しないことが多い。
本稿では,実世界のGenAIシステムを評価するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-23T14:52:39Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [314.7991906491166]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - A Unified Framework for Evaluating the Effectiveness and Enhancing the Transparency of Explainable AI Methods in Real-World Applications [2.0681376988193843]
AIモデルの特徴である"ブラックボックス"は、解釈可能性、透明性、信頼性を制約する。
本研究では,AIモデルによる説明の正確性,解釈可能性,堅牢性,公正性,完全性を評価するための統合XAI評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T05:30:10Z) - A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts [38.66213773948168]
生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。
本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
論文 参考訳(メタデータ) (2024-12-02T19:50:00Z) - Advancing Fairness in Natural Language Processing: From Traditional Methods to Explainability [0.9065034043031668]
この論文は、NLPシステムにおける株式と透明性の必要性に対処している。
高リスクNLPアプリケーションにおけるバイアスを軽減する革新的なアルゴリズムを導入している。
また、トランスフォーマーモデルの概念を特定し、ランク付けするモデルに依存しない説明可能性法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:38:58Z) - Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attribution Methods [49.62131719441252]
属性法は入力特徴の重要度を計算し、深層モデルの出力予測を説明する。
本研究はまず,属性手法の信頼性ベンチマークが満たすであろう信頼度基準の集合を同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - Towards Context-Aware Domain Generalization: Understanding the Benefits
and Limits of Marginal Transfer Learning [1.5320861212113897]
我々は、コンテキストの概念をデータポイントの集合の置換不変表現として定式化する。
経験的分析により、我々の基準は好ましくないシナリオと好ましくないシナリオの両方を識別するのに有効であることが示された。
論文 参考訳(メタデータ) (2023-12-15T05:18:07Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。