論文の概要: Customs Import Declaration Datasets
- arxiv url: http://arxiv.org/abs/2208.02484v1
- Date: Thu, 4 Aug 2022 06:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:21:02.195019
- Title: Customs Import Declaration Datasets
- Title(参考訳): customsインポート宣言データセット
- Authors: Chaeyoon Jeong and Sundong Kim and Jaewoo Park and Yeonsoo Choi
- Abstract要約: 本稿では,税関行政におけるドメインエキスパートとデータサイエンス研究者の協力を促進するために,輸入宣言データセットを提案する。
データセットは、22のキー属性を持つ54,000の人工的に生成された取引を含み、相関した特徴を維持しながらCTGANで合成される。
- 参考スコア(独自算出の注目度): 7.482855795615639
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given the huge volume of cross-border flows, effective and efficient control
of trades becomes more crucial in protecting people and society from illicit
trades while facilitating legitimate trades. However, limited accessibility of
the transaction-level trade datasets hinders the progress of open research, and
lots of customs administrations have not benefited from the recent progress in
data-based risk management. In this paper, we introduce an import declarations
dataset to facilitate the collaboration between the domain experts in customs
administrations and data science researchers. The dataset contains 54,000
artificially generated trades with 22 key attributes, and it is synthesized
with CTGAN while maintaining correlated features. Synthetic data has several
advantages. First, releasing the dataset is free from restrictions that do not
allow disclosing the original import data. Second, the fabrication step
minimizes the possible identity risk which may exist in trade statistics.
Lastly, the published data follow a similar distribution to the source data so
that it can be used in various downstream tasks. With the provision of data and
its generation process, we open baseline codes for fraud detection tasks, as we
empirically show that more advanced algorithms can better detect frauds.
- Abstract(参考訳): 国境を越えた大量の流れを考えると、貿易の効果的かつ効率的な管理は、合法的な貿易を促進しつつ、違法な貿易から人々や社会を守る上でより重要となる。
しかし、トランザクションレベルの取引データセットのアクセシビリティの制限は、オープンリサーチの進展を妨げるものであり、データベースのリスク管理の最近の進歩から多くの税関管理が恩恵を受けていない。
本稿では,税関管理分野の専門家とデータサイエンス研究者の連携を促進するために,インポート宣言データセットを提案する。
データセットは、22のキー属性を持つ54,000の人工的に生成された取引を含む。
合成データにはいくつかの利点がある。
まず、データセットのリリースは、オリジナルのインポートデータを公開できない制限から解放される。
第2に、製造工程は、貿易統計上に存在する可能性のある同一性リスクを最小化する。
最後に、公開されたデータはソースデータと同様の分布に従っており、様々な下流タスクで使用することができる。
データの提供と生成プロセスにより、我々は不正検出タスクのベースラインコードを開く。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - MaSS: Multi-attribute Selective Suppression for Utility-preserving Data Transformation from an Information-theoretic Perspective [10.009178591853058]
本稿では,このユーティリティ保護プライバシ保護問題に対する情報理論の形式的定義を提案する。
我々は、ターゲットデータセットからセンシティブな属性を抑えることができるデータ駆動学習可能なデータ変換フレームワークを設計する。
その結果,様々な構成下での手法の有効性と一般化性を示した。
論文 参考訳(メタデータ) (2024-05-23T18:35:46Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - Harnessing Administrative Data Inventories to Create a Reliable
Transnational Reference Database for Crop Type Monitoring [0.0]
E URO C ROPSは,国家間の相互運用を目標として,各国で調査された管理データを収集・調和する作物型分類基準データセットである。
論文 参考訳(メタデータ) (2023-10-10T07:57:00Z) - Packaging code for reproducible research in the public sector [0.0]
jtstatsプロジェクトは、大規模で複雑なデータセットをインポート、処理、視覚化するためのRとPythonパッケージで構成されている。
Jtstatsは、パブリックセクター内外において、ドメイン固有のパッケージが再現可能な研究を可能にする方法を示している。
論文 参考訳(メタデータ) (2023-05-25T16:07:24Z) - Towards Generalizable Data Protection With Transferable Unlearnable
Examples [50.628011208660645]
本稿では、転送不可能な例を生成することによって、新しい一般化可能なデータ保護手法を提案する。
私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。
論文 参考訳(メタデータ) (2023-05-18T04:17:01Z) - A Federated Learning Benchmark for Drug-Target Interaction [17.244787426504626]
本研究は,薬物-標的相互作用(DTI)領域におけるフェデレートラーニングの適用について提案する。
最高の非プライバシ保護代替手段と比較して、最大15%パフォーマンスが向上する。
他の領域とは異なり、DTIデータセットの非IIDデータ分布はFL性能を損なわないことを示す。
論文 参考訳(メタデータ) (2023-02-15T14:21:31Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。