論文の概要: Multimodal Approach for Harmonized System Code Prediction
- arxiv url: http://arxiv.org/abs/2406.04349v1
- Date: Wed, 8 May 2024 12:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 08:10:07.862006
- Title: Multimodal Approach for Harmonized System Code Prediction
- Title(参考訳): 調和型システムコード予測のためのマルチモーダルアプローチ
- Authors: Otmane Amel, Sedrick Stassin, Sidi Ahmed Mahmoudi, Xavier Siebert,
- Abstract要約: 電子商取引の急速な成長は税関代表者にかなりの圧力をかけている。
これに取り組む中で、人工知能(AI)システムは、直面するリスクを最小限に抑えるための有望なアプローチとして登場した。
本稿では,画像特徴とテキスト特徴の両方を利用したディープラーニングモデルを用いた,新しいマルチモーダルHSコード予測手法を提案する。
- 参考スコア(独自算出の注目度): 0.9374652839580183
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid growth of e-commerce has placed considerable pressure on customs representatives, prompting advanced methods. In tackling this, Artificial intelligence (AI) systems have emerged as a promising approach to minimize the risks faced. Given that the Harmonized System (HS) code is a crucial element for an accurate customs declaration, we propose a novel multimodal HS code prediction approach using deep learning models exploiting both image and text features obtained through the customs declaration combined with e-commerce platform information. We evaluated two early fusion methods and introduced our MultConcat fusion method. To the best of our knowledge, few studies analyze the featurelevel combination of text and image in the state-of-the-art for HS code prediction, which heightens interest in our paper and its findings. The experimental results prove the effectiveness of our approach and fusion method with a top-3 and top-5 accuracy of 93.5% and 98.2% respectively
- Abstract(参考訳): 電子商取引の急激な成長は税関代表者にかなりの圧力をかけ、先進的な手法を推し進めている。
これに取り組む中で、人工知能(AI)システムは、直面するリスクを最小限に抑えるための有望なアプローチとして登場した。
本稿では,Halmonized System (HS) コードが正確な税関宣言の重要な要素であることを踏まえ,税関宣言とeコマースプラットフォーム情報を組み合わせた画像とテキストの特徴を融合したディープラーニングモデルを用いた,新たな多モードHSコード予測手法を提案する。
初期核融合法を2つ評価し,MultConcat核融合法を導入した。
我々の知る限りでは、HSコード予測の最先端技術におけるテキストと画像の特徴レベルの組み合わせを分析する研究はほとんどない。
実験の結果,トップ3およびトップ5の精度が93.5%,98.2%のアプローチと融合法の有効性が確認された。
関連論文リスト
- Investigating Persuasion Techniques in Arabic: An Empirical Study Leveraging Large Language Models [0.13980986259786224]
本稿では、アラビアのソーシャルメディアコンテンツにおける説得的手法の同定に焦点をあてた総合的な実証的研究について述べる。
我々は、プレトレーニング言語モデル(PLM)を利用し、ArAlEvalデータセットを活用する。
本研究では,PLMの力を活用した3つの学習手法について検討した。
論文 参考訳(メタデータ) (2024-05-21T15:55:09Z) - Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding [18.06081009550052]
MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。
いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。
優先度付きハイブリッドポリシ(EPH)を組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:47:12Z) - Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文 参考訳(メタデータ) (2024-01-09T21:08:13Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Perfectly Secure Steganography Using Minimum Entropy Coupling [60.154855689780796]
カチン1998のステガノグラフィー情報理論モデルでは, ステガノグラフィーの術式は完全に安全であることが示されている。
また, 完全セキュアな手順の中で, 最小エントロピー結合によって誘導される場合に限, 情報スループットが最大になることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:40:07Z) - Multi-level Fusion of Wav2vec 2.0 and BERT for Multimodal Emotion
Recognition [15.133202035812017]
本稿では,wav2vec 2.0やBERTといった最先端の事前学習モデルを利用したトランスファー学習を提案する。
また, フレームレベルの音声埋め込みだけでなく, 音声, 音節, 単語レベルの音声埋め込みなどのセグメントレベルの埋め込みも抽出し, さらなる性能向上を図る。
論文 参考訳(メタデータ) (2022-07-11T08:20:53Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。