論文の概要: Measuring the Machine: Evaluating Generative AI as Pluralist Sociotechical Systems
- arxiv url: http://arxiv.org/abs/2604.20545v1
- Date: Wed, 22 Apr 2026 13:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.140776
- Title: Measuring the Machine: Evaluating Generative AI as Pluralist Sociotechical Systems
- Title(参考訳): 機械の測定:多元的AIを多元的社会システムとして評価する
- Authors: Rebecca L. Johnson,
- Abstract要約: この論文は、生成的AIは複数の社会技術システムとして評価されなければならないと主張している。
MaSH Loopsは、モデル、ユーザ、組織が意味と価値を共構築する方法をトレースするフレームワークである。
World Values Benchmarkは、World Values Surveyのデータに基づく分散アプローチを導入している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In measurement theory, instruments do not simply record reality; they help constitute what is observed. The same holds for generative AI evaluation: benchmarks do not just measure, they shape what models appear to be. Functionalist benchmarks treat models as isolated predictors, while prescriptive approaches assess what systems ought to be. Both obscure the sociotechnical processes through which meaning and values are enacted, risking the reification of narrow cultural perspectives in pluralist contexts. This thesis advances a descriptive alternative. It argues that generative AI must be evaluated as a pluralist sociotechnical system and develops Machine-Society-Human (MaSH) Loops, a framework for tracing how models, users, and institutions recursively co-construct meaning and values. Evaluation shifts from judging outputs to examining how values are enacted in interaction. Three contributions follow. Conceptually, MaSH Loops reframes evaluation as recursive, enactive process. Methodologically, the World Values Benchmark introduces a distributional approach grounded in World Values Survey data, structured prompt sets, and anchor-aware scoring. Empirically, the thesis demonstrates these through two cases: value drift in early GPT-3 and sociotechnical evaluation in real estate. A final chapter draws on participatory realism to argue that prompting and evaluation are constitutive interventions, not neutral observations. The thesis argues that static benchmarks are insufficient for generative AI. Responsible evaluation requires pluralist, process-oriented frameworks that make visible whose values are enacted. Evaluation is therefore a site of governance, shaping how AI systems are understood, deployed, and trusted.
- Abstract(参考訳): 測定理論では、楽器は単に現実を記録するのではなく、観察されるものを構成するのに役立つ。
ベンチマークは単に測定するだけでなく、モデルが何であるかを形作る。
機能主義者のベンチマークはモデルを独立した予測子として扱い、規範的なアプローチはシステムはどんなものになるべきかを評価する。
どちらも意味と価値が成立する社会技術過程を曖昧にし、複数の文脈における狭い文化的視点の再構築を危険にさらす。
この論文は記述的な代替案を推し進める。
生成AIは、複数の社会技術的システムとして評価され、モデル、ユーザ、組織が再帰的に意味と価値を共構築する方法をトレースするフレームワークであるMachine-Society-Human Loops(MaSH)を開発する必要がある、と論じている。
評価は、アウトプットを判断することから、インタラクションでどのように値が実行されるかを調べることへ移行する。
3つのコントリビューションが続く。
概念的には、MaSH Loopsは再帰的でアクティブなプロセスとして評価を再設定する。
方法論的には、World Values Benchmarkは、World Values Surveyのデータ、構造化プロンプトセット、アンカー・アウェア・スコアリングに根ざした分布的アプローチを導入している。
実証的に、この論文は、初期のGPT-3における価値の漂流と、不動産における社会技術的評価の2つの事例を通して、これらを実証している。
最終章は参加的リアリズムに焦点を合わせ、刺激と評価は中立的な観察ではなく構成的な介入であると主張する。
この論文は、静的ベンチマークは生成AIには不十分であると主張している。
責任ある評価には複数のプロセス指向のフレームワークが必要である。
したがって、評価はガバナンスの場であり、AIシステムが理解され、デプロイされ、信頼されるかを形成する。
関連論文リスト
- SHOE: Semantic HOI Open-Vocabulary Evaluation Metric [28.578980275126707]
新しい評価フレームワークであるSHOE(Semantic HOI Open-Vocabulary Evaluation)を紹介する。
SHOEは予測されたHOIラベルと接地したHOIラベルのセマンティックな類似性を取り入れている。
その結果、SHOEスコアは既存の指標よりも人間の判断と密接に一致していることがわかった。
論文 参考訳(メタデータ) (2026-04-02T03:53:39Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities [0.773472615056109]
ベンチマークデータに対する生成モデルの評価は今や至るところで行われている。
しかし、懐疑論の高まりはその信頼性を取り巻く。
報告された正確さがモデルの性能を真に反映しているとどうやってわかるのか?
このステップは、推論として評価するための原則的なフレームワークを提案することで明確化します。
論文 参考訳(メタデータ) (2025-09-23T21:29:04Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Demographic Benchmarking: Bridging Socio-Technical Gaps in Bias Detection [0.0]
本稿では、ITTACA AI監査プラットフォームが、AIレコメンデータシステムの監査において、階層的ベンチマークにどのように取り組むかを説明する。
フレームワークは、単に測定するだけでなく、特定のパフォーマンス指標の許容範囲を確立することができるので、監査役として役立ちます。
我々のアプローチは、社会デマトグラフィーの洞察を直接AIシステムに統合し、バイアスを減らし、全体的なパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-01-27T12:14:49Z) - Towards Automatic Evaluation for Image Transcreation [52.71090829502756]
本稿では,機械翻訳(MT)メトリクスにインスパイアされた自動評価指標群を提案する。
画像トランスクリエーションの3つの重要な側面として,文化的関連性,意味的等価性,視覚的類似性を挙げる。
この結果から,視覚エンコーダの表現は視覚的類似度を測定するのに有効であるのに対し,プロプライエタリなVLMは文化的関連性と意味的等価性を最もよく認識していることがわかった。
論文 参考訳(メタデータ) (2024-12-18T10:55:58Z) - Evaluating the Social Impact of Generative AI Systems in Systems and Society [43.32010533676472]
テキスト(コードを含む)、画像、オーディオ、ビデオなどを含むモダリティにまたがる生成AIシステムは、幅広い社会的影響を持つ。
これらの影響を評価するための公式な基準や、どの影響を評価するべきかの基準はありません。
本稿では,任意のモダリティに対して基本生成型AIシステムを評価するための,標準的なアプローチに向けたガイドを提案する。
論文 参考訳(メタデータ) (2023-06-09T15:05:13Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。