Fugu-MT 論文翻訳(概要): Customs Import Declaration Datasets

論文の概要: Customs Import Declaration Datasets

arxiv url: http://arxiv.org/abs/2208.02484v1
Date: Thu, 4 Aug 2022 06:20:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-05 12:21:02.195019
Title: Customs Import Declaration Datasets
Title（参考訳）: customsインポート宣言データセット
Authors: Chaeyoon Jeong and Sundong Kim and Jaewoo Park and Yeonsoo Choi
Abstract要約: 本稿では,税関行政におけるドメインエキスパートとデータサイエンス研究者の協力を促進するために,輸入宣言データセットを提案する。データセットは、22のキー属性を持つ54,000の人工的に生成された取引を含み、相関した特徴を維持しながらCTGANで合成される。
参考スコア（独自算出の注目度）: 7.482855795615639
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Given the huge volume of cross-border flows, effective and efficient control of trades becomes more crucial in protecting people and society from illicit trades while facilitating legitimate trades. However, limited accessibility of the transaction-level trade datasets hinders the progress of open research, and lots of customs administrations have not benefited from the recent progress in data-based risk management. In this paper, we introduce an import declarations dataset to facilitate the collaboration between the domain experts in customs administrations and data science researchers. The dataset contains 54,000 artificially generated trades with 22 key attributes, and it is synthesized with CTGAN while maintaining correlated features. Synthetic data has several advantages. First, releasing the dataset is free from restrictions that do not allow disclosing the original import data. Second, the fabrication step minimizes the possible identity risk which may exist in trade statistics. Lastly, the published data follow a similar distribution to the source data so that it can be used in various downstream tasks. With the provision of data and its generation process, we open baseline codes for fraud detection tasks, as we empirically show that more advanced algorithms can better detect frauds.
Abstract（参考訳）: 国境を越えた大量の流れを考えると、貿易の効果的かつ効率的な管理は、合法的な貿易を促進しつつ、違法な貿易から人々や社会を守る上でより重要となる。しかし、トランザクションレベルの取引データセットのアクセシビリティの制限は、オープンリサーチの進展を妨げるものであり、データベースのリスク管理の最近の進歩から多くの税関管理が恩恵を受けていない。本稿では,税関管理分野の専門家とデータサイエンス研究者の連携を促進するために,インポート宣言データセットを提案する。データセットは、22のキー属性を持つ54,000の人工的に生成された取引を含む。合成データにはいくつかの利点がある。まず、データセットのリリースは、オリジナルのインポートデータを公開できない制限から解放される。第2に、製造工程は、貿易統計上に存在する可能性のある同一性リスクを最小化する。最後に、公開されたデータはソースデータと同様の分布に従っており、様々な下流タスクで使用することができる。データの提供と生成プロセスにより、我々は不正検出タスクのベースラインコードを開く。

関連論文リスト

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
Unlocking Post-hoc Dataset Inference with Synthetic Data [11.886166976507711]
トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
論文参考訳（メタデータ） (2025-06-18T08:46:59Z)
Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文参考訳（メタデータ） (2025-02-15T04:56:45Z)
Towards Data Governance of Frontier AI Models [0.0]
私たちは、フロンティアAIモデルに対して、データが新たなガバナンス能力を実現する方法について検討する。データは非リバルで、しばしば非排除可能で、容易に複製可能で、ますます合成可能になっている。データサプライチェーンに沿ってキーアクターをターゲットにした一連のポリシー機構を提案する。
論文参考訳（メタデータ） (2024-12-05T02:37:51Z)
Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文参考訳（メタデータ） (2024-10-06T07:56:53Z)
MaSS: Multi-attribute Selective Suppression for Utility-preserving Data Transformation from an Information-theoretic Perspective [10.009178591853058]
本稿では,このユーティリティ保護プライバシ保護問題に対する情報理論の形式的定義を提案する。我々は、ターゲットデータセットからセンシティブな属性を抑えることができるデータ駆動学習可能なデータ変換フレームワークを設計する。その結果,様々な構成下での手法の有効性と一般化性を示した。
論文参考訳（メタデータ） (2024-05-23T18:35:46Z)
The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文参考訳（メタデータ） (2023-10-25T17:20:26Z)
Harnessing Administrative Data Inventories to Create a Reliable Transnational Reference Database for Crop Type Monitoring [0.0]
E URO C ROPSは,国家間の相互運用を目標として,各国で調査された管理データを収集・調和する作物型分類基準データセットである。
論文参考訳（メタデータ） (2023-10-10T07:57:00Z)
Packaging code for reproducible research in the public sector [0.0]
jtstatsプロジェクトは、大規模で複雑なデータセットをインポート、処理、視覚化するためのRとPythonパッケージで構成されている。 Jtstatsは、パブリックセクター内外において、ドメイン固有のパッケージが再現可能な研究を可能にする方法を示している。
論文参考訳（メタデータ） (2023-05-25T16:07:24Z)
Towards Generalizable Data Protection With Transferable Unlearnable Examples [50.628011208660645]
本稿では、転送不可能な例を生成することによって、新しい一般化可能なデータ保護手法を提案する。私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。
論文参考訳（メタデータ） (2023-05-18T04:17:01Z)
A Federated Learning Benchmark for Drug-Target Interaction [17.244787426504626]
本研究は,薬物-標的相互作用(DTI)領域におけるフェデレートラーニングの適用について提案する。最高の非プライバシ保護代替手段と比較して、最大15%パフォーマンスが向上する。他の領域とは異なり、DTIデータセットの非IIDデータ分布はFL性能を損なわないことを示す。
論文参考訳（メタデータ） (2023-02-15T14:21:31Z)
A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。ディープラーニング技術はこの10年で前例のない発展を遂げた。本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文参考訳（メタデータ） (2023-01-13T15:11:38Z)
Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文参考訳（メタデータ） (2022-02-03T17:25:46Z)
Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文参考訳（メタデータ） (2020-12-20T23:18:51Z)
Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文参考訳（メタデータ） (2020-08-13T08:04:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。