論文の概要: A Transparent Fairness Evaluation Protocol for Open-Source Language Model Benchmarking on the Blockchain
- arxiv url: http://arxiv.org/abs/2508.09993v1
- Date: Tue, 29 Jul 2025 22:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.180691
- Title: A Transparent Fairness Evaluation Protocol for Open-Source Language Model Benchmarking on the Blockchain
- Title(参考訳): ブロックチェーン上でのオープンソース言語モデルベンチマークのための透過的公正性評価プロトコル
- Authors: Hugo Massaroli, Leonardo Iara, Emmanuel Iarussi, Viviana Siless,
- Abstract要約: 大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、その公平性に対する懸念は持続している。
本稿では,インターネット・コンピュータ・プロトコル(ICP)ブロックチェーン上でのスマートコントラクトを用いて,オープンソースのLCMの公平性を評価するための透過的評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 0.18570740863168358
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in realworld applications, yet concerns about their fairness persist especially in highstakes domains like criminal justice, education, healthcare, and finance. This paper introduces transparent evaluation protocol for benchmarking the fairness of opensource LLMs using smart contracts on the Internet Computer Protocol (ICP) blockchain (Foundation, 2023). Our method ensures verifiable, immutable, and reproducible evaluations by executing onchain HTTP requests to hosted Hugging Face endpoints and storing datasets, prompts, and metrics directly onchain. We benchmark the Llama, DeepSeek, and Mistral models on the PISA dataset for academic performance prediction (OECD, 2018), a dataset suitable for fairness evaluation using statistical parity and equal opportunity metrics (Hardt et al., 2016). We also evaluate structured Context Association Metrics derived from the StereoSet dataset (Nadeem et al., 2020) to measure social bias in contextual associations. We further extend our analysis with a multilingual evaluation across English, Spanish, and Portuguese using the Kaleidoscope benchmark (Salazar et al., 2025), revealing cross-linguistic disparities. All code and results are open source, enabling community audits and longitudinal fairness tracking across model versions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界のアプリケーションにますます多くデプロイされているが、刑事司法、教育、医療、金融といった高額な領域では、その公平性に対する懸念が持続している。
本稿では,インターネット・コンピュータ・プロトコル(ICP)ブロックチェーン上でのスマートコントラクトを用いて,オープンソースのLCMの公正性を評価するための透過的評価プロトコルを提案する(創立,2023年)。
本手法は,Hugging FaceエンドポイントへのオンチェーンHTTPリクエストを実行し,データセット,プロンプト,メトリクスを直接オンチェーンに格納することで,検証可能な,不変かつ再現可能な評価を実現する。
学術性能予測のためのPISAデータセット(OECD, 2018)のLlama, DeepSeek, Mistralモデルのベンチマークを行い, 統計的パリティと等機会指標を用いた公平性評価に適したデータセット(Hardt et al , 2016)について検討した。
また、StereoSetデータセット(Nadeem et al , 2020)から得られた構造化コンテキストアソシエーションメトリクスを評価し、文脈アソシエーションにおける社会的バイアスを測定する。
我々はさらに、Kaleidoscopeベンチマーク(Salazar et al , 2025)を用いて、英語、スペイン語、ポルトガル語の多言語評価により分析を拡張し、言語間差を明らかにした。
すべてのコードと結果はオープンソースで、コミュニティの監査とモデルバージョン間の縦長の公正性追跡を可能にする。
関連論文リスト
- The AI Language Proficiency Monitor -- Tracking the Progress of LLMs on Multilingual Benchmarks [0.0]
我々は、最大200言語にわたる大規模言語モデル(LLM)のパフォーマンスを評価する包括的なベンチマークであるAI Language Monitorを紹介した。
FLORES+, MMLU, GSM8K, TruthfulQA, ARCなどのデータセットを用いて, 翻訳, 質問応答, 数学, 推論などのタスクを集約した。
私たちは、研究者、開発者、政策立案者をサポートし、モデルパフォーマンスの強さとギャップを識別する、オープンソースの自動更新型リーダボードとダッシュボードを提供しています。
論文 参考訳(メタデータ) (2025-07-11T12:38:02Z) - Datasets for Fairness in Language Models: An In-Depth Survey [8.198294998446867]
本調査では,現在の言語モデル研究において,最も広く用いられている公平性データセットについて検討する。
我々は、データセットとスコアリングメソッド間の人口格差の一貫したパターンを明らかにする統一評価フレームワークを導入する。
モデルフェアネスに関する結論に影響を与えることがしばしば見過ごされるバイアスを強調し、これらのデータセットを選択し、組み合わせ、解釈するための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-06-29T22:11:58Z) - OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - Benchmarking LLM-based Relevance Judgment Methods [15.255877686845773]
大規模言語モデル(LLM)は、学術的、産業的にもますます多くデプロイされている。
我々は,2値関係判定,次級関係評価,相互選好に基づく手法,および2つのナゲットに基づく評価方法など,複数のLCMに基づく関連性評価手法を体系的に比較した。
データリリースには、オープンソース(Llama3.2b)と商用(gpt-4o)モデルの両方で生成された関連判断が含まれています。
論文 参考訳(メタデータ) (2025-04-17T01:13:21Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - MEMERAG: A Multilingual End-to-End Meta-Evaluation Benchmark for Retrieval Augmented Generation [13.440594349043916]
マルチリンガル・エンド・エンド・エンド・メタ評価RAGベンチマーク(MEMERAG)を開発した。
我々のベンチマークは,MIRACLデータセット上に構築されており,母国語質問を用いて多種多様な大言語モデル(LLM)による応答を生成する。
提案するベンチマークでは,高度なプロンプト技術とLCMによる改善を確実に識別できることが示されている。
論文 参考訳(メタデータ) (2025-02-24T13:58:42Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。