Fugu-MT 論文翻訳(概要): Evaluative Item-Contrastive Explanations in Rankings

論文の概要: Evaluative Item-Contrastive Explanations in Rankings

arxiv url: http://arxiv.org/abs/2312.10094v1
Date: Thu, 14 Dec 2023 15:40:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 18:49:15.102334
Title: Evaluative Item-Contrastive Explanations in Rankings
Title（参考訳）: ランク付けにおける評価項目比較説明
Authors: Alessandro Castelnovo, Riccardo Crupi, Nicol\`o Mombelli, Gabriele Nanino, Daniele Regoli
Abstract要約: 本稿では、説明可能なAIの特定の形態、すなわち対照的な説明の適用を提唱し、ランキング問題に対処するのに適している。本研究は,ランキングシステムに適した評価項目・コントラスト説明について紹介し,公開データを用いた実験を通じてその適用と特徴について解説する。
参考スコア（独自算出の注目度）: 47.24529321119513
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The remarkable success of Artificial Intelligence in advancing automated decision-making is evident both in academia and industry. Within the plethora of applications, ranking systems hold significant importance in various domains. This paper advocates for the application of a specific form of Explainable AI -- namely, contrastive explanations -- as particularly well-suited for addressing ranking problems. This approach is especially potent when combined with an Evaluative AI methodology, which conscientiously evaluates both positive and negative aspects influencing a potential ranking. Therefore, the present work introduces Evaluative Item-Contrastive Explanations tailored for ranking systems and illustrates its application and characteristics through an experiment conducted on publicly available data.
Abstract（参考訳）: 自動意思決定の進歩における人工知能の顕著な成功は、学界と産業の両方において明らかである。多くのアプリケーションにおいて、ランキングシステムは様々なドメインにおいて重要な役割を担っている。本稿では、特にランキング問題に対処するのに適した、説明可能なAIの特定の形式、すなわち対照的な説明の適用を提唱する。このアプローチは、潜在的ランキングに影響を与える肯定的側面と否定的側面の両方を理論的に評価する評価AI方法論と組み合わせることで特に強力である。そこで本研究では,ランキングシステム用に調整された評価項目間関係説明を導入し,公開データを用いた実験を通して,その応用と特徴を説明する。

関連論文リスト

Teaching at Scale: Leveraging AI to Evaluate and Elevate Engineering Education [3.557803321422781]
本稿では,大規模言語モデルを用いた定性的な学生フィードバックのためのスケーラブルなAI支援フレームワークを提案する。このシステムは階層的な要約、匿名化、例外処理を用いて、オープンなコメントから実行可能なテーマを抽出する。大規模な工学系大学への展開が成功したことを報告します。
論文参考訳（メタデータ） (2025-08-01T20:27:40Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
A Comprehensive Survey of Action Quality Assessment: Method and Benchmark [25.694556140797832]
行動品質評価(AQA)は、人間の行動の質を定量的に評価し、人間の判断におけるバイアスを減らす自動評価を提供する。近年のAQAの進歩は革新的手法を導入しているが、類似の手法は異なる領域にまたがることが多い。統一されたベンチマークと限定的な計算比較の欠如は、AQAアプローチの一貫性のある評価と公正な評価を妨げている。
論文参考訳（メタデータ） (2024-12-15T10:47:26Z)
AERA Chat: An Interactive Platform for Automated Explainable Student Answer Assessment [12.970776782360366]
AERA Chatは、学生の回答の視覚的に説明された評価を提供するインタラクティブなプラットフォームである。ユーザーは質問や学生の回答を入力して、大規模言語モデルから自動で説明可能な評価結果を得ることができる。
論文参考訳（メタデータ） (2024-10-12T11:57:53Z)
Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ユーティリティとトピック関連性は、情報検索において重要な手段である。本稿では,リトリーバル拡張生成のサイクルの各ステップを促進させるために,反復的ユーティリティである JudgmEnt fraMework を提案する。
論文参考訳（メタデータ） (2024-06-17T07:52:42Z)
RankingSHAP -- Listwise Feature Attribution Explanations for Ranking Models [48.895510739010355]
このギャップに対処するための重要な貢献は3つあります。まず、ランキングモデルに対するリストワイズ機能属性を厳格に定義する。第2に、ランク付けSHAPを導入し、人気のあるSHAPフレームワークを拡張して、ランク付け属性をリストワイズする。第3に、学習からランクへのモデルにおける属性の忠実度を評価するための2つの新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-24T10:45:55Z)
Exploring Federated Unlearning: Analysis, Comparison, and Insights [101.64910079905566]
フェデレーション・アンラーニングは、フェデレーション・システムで訓練されたモデルからデータを選択的に除去することを可能にする。本稿では,既存のフェデレーション・アンラーニング手法について検討し,アルゴリズムの効率,モデル精度への影響,プライバシ保護の有効性について検討する。フェデレートされたアンラーニング手法を評価するための統一ベンチマークであるOpenFederatedUnlearningフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-30T01:34:33Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文参考訳（メタデータ） (2023-10-03T09:46:02Z)
Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文参考訳（メタデータ） (2023-03-21T14:24:58Z)
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文参考訳（メタデータ） (2022-10-11T20:19:11Z)
Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文参考訳（メタデータ） (2022-05-20T20:50:17Z)
Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文参考訳（メタデータ） (2022-04-05T19:39:13Z)
From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI [3.7592122147132776]
我々は,説明の質を総合的に評価するために評価すべき,コンパクト性や正確性などの12の概念的特性を同定する。その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。この体系的な評価手法の収集は、研究者や実践者に、新しいXAI手法と既存のXAI手法を徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。
論文参考訳（メタデータ） (2022-01-20T13:23:20Z)
Through the Data Management Lens: Experimental Analysis and Evaluation of Fair Classification [75.49600684537117]
データ管理研究は、データとアルゴリズムの公平性に関連するトピックに対する存在感と関心が高まっている。我々は,その正しさ,公平性,効率性,スケーラビリティ,安定性よりも,13の公正な分類アプローチと追加の変種を幅広く分析している。我々の分析は、異なるメトリクスとハイレベルなアプローチ特性がパフォーマンスの異なる側面に与える影響に関する新しい洞察を強調します。
論文参考訳（メタデータ） (2021-01-18T22:55:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。