論文の概要: Customs Import Declaration Datasets
- arxiv url: http://arxiv.org/abs/2208.02484v3
- Date: Mon, 4 Sep 2023 05:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 11:42:22.994322
- Title: Customs Import Declaration Datasets
- Title(参考訳): customsインポート宣言データセット
- Authors: Chaeyoon Jeong and Sundong Kim and Jaewoo Park and Yeonsoo Choi
- Abstract要約: 我々は、税関行政におけるドメインエキスパートと多様なドメインの研究者の協力を促進するために、インポート宣言データセットを導入する。
データセットには、54,000の人工的に生成された取引と22のキー属性が含まれている。
我々は、より高度なアルゴリズムが詐欺を検知しやすくすることを実証的に示している。
- 参考スコア(独自算出の注目度): 12.306592823750385
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given the huge volume of cross-border flows, effective and efficient control
of trade becomes more crucial in protecting people and society from illicit
trade. However, limited accessibility of the transaction-level trade datasets
hinders the progress of open research, and lots of customs administrations have
not benefited from the recent progress in data-based risk management. In this
paper, we introduce an import declaration dataset to facilitate the
collaboration between domain experts in customs administrations and researchers
from diverse domains, such as data science and machine learning. The dataset
contains 54,000 artificially generated trades with 22 key attributes, and it is
synthesized with conditional tabular GAN while maintaining correlated features.
Synthetic data has several advantages. First, releasing the dataset is free
from restrictions that do not allow disclosing the original import data. The
fabrication step minimizes the possible identity risk which may exist in trade
statistics. Second, the published data follow a similar distribution to the
source data so that it can be used in various downstream tasks. Hence, our
dataset can be used as a benchmark for testing the performance of any
classification algorithm. With the provision of data and its generation
process, we open baseline codes for fraud detection tasks, as we empirically
show that more advanced algorithms can better detect fraud.
- Abstract(参考訳): 国境を越えた大量の流れを考えると、違法貿易から人々や社会を守るために、効果的かつ効率的な貿易統制がより重要となる。
しかし、トランザクションレベルの取引データセットのアクセシビリティの制限は、オープンリサーチの進展を妨げるものであり、データベースのリスク管理の最近の進歩から多くの税関管理が恩恵を受けていない。
本稿では,税関管理のドメインエキスパートと,データサイエンスや機械学習など多様な分野の研究者のコラボレーションを促進するために,インポート宣言データセットを提案する。
データセットは、22のキー属性を持つ54,000の人工的に生成された取引を含み、相関した特徴を維持しながら条件付き表状GANで合成される。
合成データにはいくつかの利点がある。
まず、データセットのリリースは、オリジナルのインポートデータを公開できない制限から解放される。
製造段階は、貿易統計に存在している可能性のあるアイデンティティリスクを最小化する。
第二に、公開されたデータはソースデータと同様の分布に従っており、様々な下流タスクで使用することができる。
したがって、我々のデータセットは任意の分類アルゴリズムの性能をテストするベンチマークとして利用できる。
データの提供と生成プロセスにより、我々は不正検出タスクのベースラインコードを開く。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - MaSS: Multi-attribute Selective Suppression for Utility-preserving Data Transformation from an Information-theoretic Perspective [10.009178591853058]
本稿では,このユーティリティ保護プライバシ保護問題に対する情報理論の形式的定義を提案する。
我々は、ターゲットデータセットからセンシティブな属性を抑えることができるデータ駆動学習可能なデータ変換フレームワークを設計する。
その結果,様々な構成下での手法の有効性と一般化性を示した。
論文 参考訳(メタデータ) (2024-05-23T18:35:46Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - Harnessing Administrative Data Inventories to Create a Reliable
Transnational Reference Database for Crop Type Monitoring [0.0]
E URO C ROPSは,国家間の相互運用を目標として,各国で調査された管理データを収集・調和する作物型分類基準データセットである。
論文 参考訳(メタデータ) (2023-10-10T07:57:00Z) - Packaging code for reproducible research in the public sector [0.0]
jtstatsプロジェクトは、大規模で複雑なデータセットをインポート、処理、視覚化するためのRとPythonパッケージで構成されている。
Jtstatsは、パブリックセクター内外において、ドメイン固有のパッケージが再現可能な研究を可能にする方法を示している。
論文 参考訳(メタデータ) (2023-05-25T16:07:24Z) - Towards Generalizable Data Protection With Transferable Unlearnable
Examples [50.628011208660645]
本稿では、転送不可能な例を生成することによって、新しい一般化可能なデータ保護手法を提案する。
私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。
論文 参考訳(メタデータ) (2023-05-18T04:17:01Z) - A Federated Learning Benchmark for Drug-Target Interaction [17.244787426504626]
本研究は,薬物-標的相互作用(DTI)領域におけるフェデレートラーニングの適用について提案する。
最高の非プライバシ保護代替手段と比較して、最大15%パフォーマンスが向上する。
他の領域とは異なり、DTIデータセットの非IIDデータ分布はFL性能を損なわないことを示す。
論文 参考訳(メタデータ) (2023-02-15T14:21:31Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。