論文の概要: A Comprehensive Study of Shapley Value in Data Analytics
- arxiv url: http://arxiv.org/abs/2412.01460v3
- Date: Tue, 10 Dec 2024 13:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:33:03.970902
- Title: A Comprehensive Study of Shapley Value in Data Analytics
- Title(参考訳): データ分析における共有価値の総合的研究
- Authors: Hong Lin, Shixin Wan, Zhongle Xie, Ke Chen, Meihui Zhang, Lidan Shou, Gang Chen,
- Abstract要約: 本稿では、データ分析(DA)ワークフロー全体にわたって使用されるShapley値(SV)について、初めて包括的な研究を行う。
我々は,これらのステップで使用される既存の多種多様なSVを統一された定義で要約し,SVがデータ科学者にもたらす重要な機能を明らかにする。
SVBenchは,SVアプリケーション開発のための最初のオープンソースの計算ベンチマークであり,解析と議論の検証のために6つのDAタスクの実験を行う。
- 参考スコア(独自算出の注目度): 16.11540350411322
- License:
- Abstract: Over the recent years, Shapley value (SV), a solution concept from cooperative game theory, has found numerous applications in data analytics (DA). This paper provides the first comprehensive study of SV used throughout the DA workflow, which involves three main steps: data fabric, data exploration, and result reporting. We summarize existing versatile forms of SV used in these steps by a unified definition and clarify the essential functionalities that SV can provide for data scientists. We categorize the arts in this field based on the technical challenges they tackled, which include computation efficiency, approximation error, privacy preservation, and appropriate interpretations. We discuss these challenges and analyze the corresponding solutions. We also implement SVBench, the first open-sourced benchmark for developing SV applications, and conduct experiments on six DA tasks to validate our analysis and discussions. Based on the qualitative and quantitative results, we identify the limitations of current efforts for applying SV to DA and highlight the directions of future research and engineering.
- Abstract(参考訳): 近年、協調ゲーム理論のソリューション概念であるShapley Value (SV) は、データ分析(DA)に多くの応用を見出した。
本稿では、データファブリック、データ探索、結果報告の3つの主要なステップを含む、DAワークフロー全体で使用されるSVに関する最初の包括的な研究を提供する。
我々は,これらのステップで使用される既存の汎用的なSVを統一された定義で要約し,SVがデータ科学者にもたらす本質的な機能を明らかにする。
我々は,計算効率,近似誤差,プライバシー保護,適切な解釈などの技術的課題に基づいて,この分野の芸術を分類する。
これらの課題を議論し、対応する解決策を分析する。
また、SVBenchは、SVアプリケーション開発のための最初のオープンソースベンチマークであり、6つのDAタスクの実験を行い、分析と議論を検証する。
定性的かつ定量的な結果に基づいて,SVをDAに適用するための現在の取り組みの限界を特定し,今後の研究・工学の方向性を明らかにする。
関連論文リスト
- Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Leveraging Large Language Model for Automatic Evolving of Industrial
Data-Centric R&D Cycle [20.30730316993658]
データ駆動型ソリューションは、無数の産業課題に対処するための強力なツールとして登場しています。
データ中心のR&Dはこれらのソリューションを活用する上で重要な役割を担っているが、人間、計算、時間資源といった面では大きなコストが伴うことが多い。
本稿では,データ中心R&Dの進化サイクルを早めるために,大規模言語モデル(LLM)の可能性について検討する。
論文 参考訳(メタデータ) (2023-10-17T13:18:02Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - A Comprehensive Survey on Edge Data Integrity Verification: Fundamentals and Future Trends [43.174689394432804]
我々は、現在の研究状況、オープンな問題、そして潜在的に有望な洞察を読者に示し、この未調査分野をさらに調査する。
先行研究を徹底的に評価するために,有効な検証手法が満たすべき普遍的基準フレームワークを合成する。
我々は、将来の仕事における興味深い研究課題と可能な方向性を強調し、今後の技術、例えば機械学習とコンテキスト認識セキュリティがECのセキュリティをいかに強化できるかについて議論する。
論文 参考訳(メタデータ) (2022-10-20T02:58:36Z) - A Survey on Data-driven Software Vulnerability Assessment and
Prioritization [0.0]
ソフトウェア脆弱性(SV)は複雑さと規模が増加しており、多くのソフトウェアシステムに重大なセキュリティリスクを生じさせている。
機械学習やディープラーニングといったデータ駆動技術は、SVの評価と優先順位付けを次のレベルに引き上げた。
論文 参考訳(メタデータ) (2021-07-18T04:49:22Z) - Predictive analytics using Social Big Data and machine learning [6.142272540492935]
この章では、ソーシャルビッグデータ分析の基礎となる中核的な側面について光を当てている。
さまざまな予測分析アルゴリズムが,いくつかの重要なアプリケーションやトップレベルのツールやAPIで使用されている。
論文 参考訳(メタデータ) (2021-04-21T19:30:45Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。