論文の概要: MANILA: A Low-Code Application to Benchmark Machine Learning Models and Fairness-Enhancing Methods
- arxiv url: http://arxiv.org/abs/2504.20907v1
- Date: Tue, 29 Apr 2025 16:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.986742
- Title: MANILA: A Low-Code Application to Benchmark Machine Learning Models and Fairness-Enhancing Methods
- Title(参考訳): MANILA: ベンチマーク機械学習モデルとフェアネスエンハンシング手法のためのローコードアプリケーション
- Authors: Giordano d'Aloisio,
- Abstract要約: MANILAは、機械学習モデルと公正性向上手法をベンチマークするためのWebベースのアプリケーションである。
それは拡張フィーチャーモデルに基づいており、ソフトウェア製品ラインとして一般的な公正なベンチマークワークフローをモデル化しています。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents MANILA, a web-based low-code application to benchmark machine learning models and fairness-enhancing methods and select the one achieving the best fairness and effectiveness trade-off. It is grounded on an Extended Feature Model that models a general fairness benchmarking workflow as a Software Product Line. The constraints defined among the features guide users in creating experiments that do not lead to execution errors. We describe the architecture and implementation of MANILA and evaluate it in terms of expressiveness and correctness.
- Abstract(参考訳): 本稿では、機械学習モデルとフェアネス向上手法をベンチマークし、最良のフェアネスと有効性のトレードオフを達成するためのWebベースのローコードアプリケーションであるMANILAを提案する。
それは拡張フィーチャーモデルに基づいており、ソフトウェア製品ラインとして一般的な公正なベンチマークワークフローをモデル化しています。
機能の中で定義された制約は、ユーザが実行エラーにつながることのない実験を作成するのに役立つ。
我々はMANILAのアーキテクチャと実装を説明し、表現性と正確性の観点から評価する。
関連論文リスト
- Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。
Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。
メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T08:35:55Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - fairml: A Statistician's Take on Fair Machine Learning Modelling [0.0]
本稿では,これまでの研究(Scutari, Panero, Proissl 2022)および関連モデルを文献で実装したfairmlパッケージについて述べる。
Fairmlは古典的な統計モデルと ペナル化された回帰結果に基づいて設計されています
フェアネスを強制するために使われる制約は、推定をモデル化することであり、望まれるモデルファミリと各アプリケーションに対するフェアネス定義の混合とマッチングを可能にする。
論文 参考訳(メタデータ) (2023-05-03T09:59:53Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文 参考訳(メタデータ) (2020-02-19T17:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。