論文の概要: FiFAR: A Fraud Detection Dataset for Learning to Defer
- arxiv url: http://arxiv.org/abs/2312.13218v1
- Date: Wed, 20 Dec 2023 17:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 14:40:55.274266
- Title: FiFAR: A Fraud Detection Dataset for Learning to Defer
- Title(参考訳): FiFAR: ディフェンダー学習のための不正検出データセット
- Authors: Jean V. Alves, Diogo Leit\~ao, S\'ergio Jesus, Marco O. P. Sampaio,
Pedro Saleiro, M\'ario A. T. Figueiredo, Pedro Bizarro
- Abstract要約: 本研究では、銀行口座不正検出データセットであるFiFAR(Financial Fraud Alert Review dataset)を紹介する。
FiFARには、複雑な50人のチームによる予測が含まれている。
我々は,本データセットを用いて,現実的なデータ可用性条件下でのキャパシティを意識したL2D法と拒絶学習手法を開発した。
- 参考スコア(独自算出の注目度): 9.187694794359498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public dataset limitations have significantly hindered the development and
benchmarking of learning to defer (L2D) algorithms, which aim to optimally
combine human and AI capabilities in hybrid decision-making systems. In such
systems, human availability and domain-specific concerns introduce
difficulties, while obtaining human predictions for training and evaluation is
costly. Financial fraud detection is a high-stakes setting where algorithms and
human experts often work in tandem; however, there are no publicly available
datasets for L2D concerning this important application of human-AI teaming. To
fill this gap in L2D research, we introduce the Financial Fraud Alert Review
Dataset (FiFAR), a synthetic bank account fraud detection dataset, containing
the predictions of a team of 50 highly complex and varied synthetic fraud
analysts, with varied bias and feature dependence. We also provide a realistic
definition of human work capacity constraints, an aspect of L2D systems that is
often overlooked, allowing for extensive testing of assignment systems under
real-world conditions. We use our dataset to develop a capacity-aware L2D
method and rejection learning approach under realistic data availability
conditions, and benchmark these baselines under an array of 300 distinct
testing scenarios. We believe that this dataset will serve as a pivotal
instrument in facilitating a systematic, rigorous, reproducible, and
transparent evaluation and comparison of L2D methods, thereby fostering the
development of more synergistic human-AI collaboration in decision-making
systems. The public dataset and detailed synthetic expert information are
available at: https://github.com/feedzai/fifar-dataset
- Abstract(参考訳): パブリックデータセットの制限は、ハイブリッド意思決定システムにおける人間とAIの能力を最適に組み合わせることを目的として、L2Dアルゴリズムを遅延させる学習の開発とベンチマークを著しく妨げている。
このようなシステムでは、ヒューマンアベイラビリティとドメイン固有の関心が困難をもたらす一方で、トレーニングや評価のための人間の予測を得ることはコストがかかる。
金融不正検出は、アルゴリズムや人間の専門家がしばしばタンデムで作業する高度な設定であるが、このヒューマン-aiチームの重要な応用に関するl2dのデータセットは公開されていない。
このギャップを埋めるために,我々は,50名の高度に複雑で多彩な合成詐欺アナリストのチームが,バイアスや特徴依存性の異なる予測を含む,合成銀行口座詐欺検出データセットであるfinancial fraud alert review dataset (fifar)を導入する。
また、人間の作業能力の制約を現実的に定義し、L2Dシステムの側面をしばしば見落とし、現実世界の条件下での割り当てシステムの広範なテストを可能にする。
私たちは、データセットを使用して、現実的なデータ可用性条件下で容量対応l2dメソッドと拒絶学習アプローチを開発し、これらのベースラインを300の異なるテストシナリオでベンチマークします。
このデータセットは、l2d法の体系的、厳密、再現可能、および透明な評価と比較を促進する上で重要な手段となり、意思決定システムにおけるより相乗的な人間-aiコラボレーションの発展を促進する。
公開データセットと詳細な合成エキスパート情報は、https://github.com/feedzai/fifar-datasetで入手できる。
関連論文リスト
- Cost-Sensitive Learning to Defer to Multiple Experts with Workload Constraints [10.917274244918985]
遅延の学習は、ML分類器よりも正確である可能性が高いときに、人間に決定を延期する方法を学ぶことによって、人間とAIのコラボレーションシステムを改善することを目的としている。
L2Dの既存の研究は、その実践的採用を妨げる主要な現実世界の側面を見落としている。
DeCCaFは新しいL2Dアプローチであり、教師付き学習を用いて、制約の少ないデータ要求下でのヒューマンエラーの確率をモデル化する。
論文 参考訳(メタデータ) (2024-03-11T16:57:20Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Deep Learning and Handheld Augmented Reality Based System for Optimal
Data Collection in Fault Diagnostics Domain [0.0]
本稿では,最小限のデータを用いて故障診断を行う新しいヒューマン・マシン・インタラクション・フレームワークを提案する。
必要なデータの最小化は、障害の診断におけるデータ駆動モデルの実践可能性を高める。
提案するフレームワークは,各障害条件のインスタンスが1つしかない新しいデータセットに対して,100%以上の精度とリコールを提供する。
論文 参考訳(メタデータ) (2022-06-15T19:15:26Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Efficient Realistic Data Generation Framework leveraging Deep
Learning-based Human Digitization [0.0]
提案手法は、実際の背景画像として入力され、さまざまなポーズで人物を投入する。
対応するタスクのベンチマークと評価は、実データに対する補足として、合成データが効果的に使用できることを示している。
論文 参考訳(メタデータ) (2021-06-28T08:07:31Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - A Human-in-the-Loop Approach based on Explainability to Improve NTL
Detection [0.12183405753834559]
本研究では,NTL(Non-Technical Losses)を検出するために教師付きモデルを用いた実システムにおける問題を軽減するための,ループ内の人間的アプローチについて説明する。
このアプローチは、人間の知識(例えば、データ科学者や会社の利害関係者)と、トレーニングプロセス中にシステムを導く説明的手法によって提供される情報を利用する。
その結果, 精度, 解釈可能性, 堅牢性, 柔軟性の点で, 導出予測モデルの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-28T16:04:07Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。