論文の概要: A Comprehensive Study of Shapley Value in Data Analytics
- arxiv url: http://arxiv.org/abs/2412.01460v5
- Date: Sun, 06 Apr 2025 03:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 10:46:51.725844
- Title: A Comprehensive Study of Shapley Value in Data Analytics
- Title(参考訳): データ分析における共有価値の総合的研究
- Authors: Hong Lin, Shixin Wan, Zhongle Xie, Ke Chen, Meihui Zhang, Lidan Shou, Gang Chen,
- Abstract要約: 本稿では、データ分析(DA)ワークフロー全体にわたって使用されるShapley値(SV)について、初めて包括的な研究を行う。
計算効率,近似誤差,プライバシ保護,解釈可能性の4つの主な課題について考察した。
異なるDAタスクでSVアプリケーションを開発するための,モジュール的でオープンソースなフレームワークであるSVBenchを実装している。
- 参考スコア(独自算出の注目度): 16.11540350411322
- License:
- Abstract: Over the recent years, Shapley value (SV), a solution concept from cooperative game theory, has found numerous applications in data analytics (DA). This paper provides the first comprehensive study of SV used throughout the DA workflow, clarifying the key variables in defining DA-applicable SV and the essential functionalities that SV can provide for data scientists. We condense four primary challenges of using SV in DA, namely computation efficiency, approximation error, privacy preservation, and interpretability, then disentangle the resolution techniques from existing arts in this field, analyze and discuss the techniques w.r.t. each challenge and potential conflicts between challenges. We also implement SVBench, a modular and extensible open-sourced framework for developing SV applications in different DA tasks, and conduct extensive evaluations to validate our analyses and discussions. Based on the qualitative and quantitative results, we identify the limitations of current efforts for applying SV to DA and highlight the directions of future research and engineering.
- Abstract(参考訳): 近年、協調ゲーム理論のソリューション概念であるShapley Value (SV) は、データ分析(DA)に多くの応用を見出した。
本稿では、DAワークフロー全体を通じて使用されるSVについて、DA適用可能なSVを定義する上で重要な変数と、SVがデータ科学者に提供できる重要な機能を明らかにする。
我々は,DAでSVを使用する4つの主要な課題,すなわち計算効率,近似誤差,プライバシ保護,解釈可能性について考察し,この領域における既存の技術から解決技術を取り除き,各課題と課題間の潜在的な衝突について分析,議論する。
我々はまた、異なるDAタスクでSVアプリケーションを開発するためのモジュール的で拡張可能なオープンソースフレームワークであるSVBenchを実装し、分析と議論を検証するために広範囲な評価を行う。
定性的かつ定量的な結果に基づいて,SVをDAに適用するための現在の取り組みの限界を特定し,今後の研究・工学の方向性を明らかにする。
関連論文リスト
- Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Leveraging Large Language Model for Automatic Evolving of Industrial
Data-Centric R&D Cycle [20.30730316993658]
データ駆動型ソリューションは、無数の産業課題に対処するための強力なツールとして登場しています。
データ中心のR&Dはこれらのソリューションを活用する上で重要な役割を担っているが、人間、計算、時間資源といった面では大きなコストが伴うことが多い。
本稿では,データ中心R&Dの進化サイクルを早めるために,大規模言語モデル(LLM)の可能性について検討する。
論文 参考訳(メタデータ) (2023-10-17T13:18:02Z) - A Comprehensive Survey on Edge Data Integrity Verification: Fundamentals and Future Trends [43.174689394432804]
我々は、現在の研究状況、オープンな問題、そして潜在的に有望な洞察を読者に示し、この未調査分野をさらに調査する。
先行研究を徹底的に評価するために,有効な検証手法が満たすべき普遍的基準フレームワークを合成する。
我々は、将来の仕事における興味深い研究課題と可能な方向性を強調し、今後の技術、例えば機械学習とコンテキスト認識セキュリティがECのセキュリティをいかに強化できるかについて議論する。
論文 参考訳(メタデータ) (2022-10-20T02:58:36Z) - A Survey on Data-driven Software Vulnerability Assessment and
Prioritization [0.0]
ソフトウェア脆弱性(SV)は複雑さと規模が増加しており、多くのソフトウェアシステムに重大なセキュリティリスクを生じさせている。
機械学習やディープラーニングといったデータ駆動技術は、SVの評価と優先順位付けを次のレベルに引き上げた。
論文 参考訳(メタデータ) (2021-07-18T04:49:22Z) - Predictive analytics using Social Big Data and machine learning [6.142272540492935]
この章では、ソーシャルビッグデータ分析の基礎となる中核的な側面について光を当てている。
さまざまな予測分析アルゴリズムが,いくつかの重要なアプリケーションやトップレベルのツールやAPIで使用されている。
論文 参考訳(メタデータ) (2021-04-21T19:30:45Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。