論文の概要: Applying recent advances in Visual Question Answering to Record Linkage
- arxiv url: http://arxiv.org/abs/2007.05881v1
- Date: Sun, 12 Jul 2020 01:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 05:13:08.501865
- Title: Applying recent advances in Visual Question Answering to Record Linkage
- Title(参考訳): 記録リンクに対する視覚質問応答の最近の進歩
- Authors: Marko Smilevski
- Abstract要約: 視覚質問応答における作業にインスパイアされたディープラーニングアーキテクチャに基づく2つのソリューションを提案する。
提案するニューラルネットワークは,Recurrent Neural Network + Convolutional Neural Network fusion ModuleとStacked Attention Network fusion Moduleの2つの異なる融合モジュールを使用する。
リカレントニューラルネットワーク+畳み込みニューラルネットワーク融合モジュールは、平均記述が40語以上であれば、異種広告をより頻繁に分類する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multi-modal Record Linkage is the process of matching multi-modal records
from multiple sources that represent the same entity. This field has not been
explored in research and we propose two solutions based on Deep Learning
architectures that are inspired by recent work in Visual Question Answering.
The neural networks we propose use two different fusion modules, the Recurrent
Neural Network + Convolutional Neural Network fusion module and the Stacked
Attention Network fusion module, that jointly combine the visual and the
textual data of the records. The output of these fusion models is the input of
a Siamese Neural Network that computes the similarity of the records. Using
data from the Avito Duplicate Advertisements Detection dataset, we train these
solutions and from the experiments, we concluded that the Recurrent Neural
Network + Convolutional Neural Network fusion module outperforms a simple model
that uses hand-crafted features. We also find that the Recurrent Neural Network
+ Convolutional Neural Network fusion module classifies dissimilar
advertisements as similar more frequently if their average description is
bigger than 40 words. We conclude that the reason for this is that the longer
advertisements have a different distribution then the shorter advertisements
who are more prevalent in the dataset. In the end, we also conclude that
further research needs to be done with the Stacked Attention Network, to
further explore the effects of the visual data on the performance of the fusion
modules.
- Abstract(参考訳): マルチモーダルレコードリンク(Multi-modal Record Linkage)は、同じエンティティを表す複数のソースからのマルチモーダルレコードをマッチングするプロセスである。
この分野での研究は行われておらず、近年のVisual Question Answeringに触発されたディープラーニングアーキテクチャに基づく2つのソリューションを提案する。
提案するニューラルネットワークは,2つの異なる融合モジュール,Recurrent Neural Network + Convolutional Neural Network fusionモジュールとStacked Attention Network fusionモジュールを使用する。
これらの融合モデルの出力は、レコードの類似性を計算するシャムニューラルネットワークの入力である。
Avito Duplicate @s Detectionデータセットからのデータを用いて、これらのソリューションをトレーニングし、実験から、リカレントニューラルネットワーク+畳み込みニューラルネットワーク融合モジュールは手作りの機能を使った単純なモデルよりも優れていると結論付けた。
また、recurrent neural network + convolutional neural network fusion moduleは、平均的な記述が40語以上であれば、類似した広告をより頻繁に類似させる。
この理由は、長い広告が異なる分布を持つほど、データセットでより普及する広告が短くなるからだと結論付けている。
最後に,融合モジュールの性能に対する視覚データの影響をさらに探究するために,スタック型アテンションネットワークでさらなる研究を行う必要があると結論づけた。
関連論文リスト
- Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。
マルチリニア演算子のみに依存するMONetを提案する。
論文 参考訳(メタデータ) (2024-01-31T16:52:19Z) - Deception Detection from Linguistic and Physiological Data Streams Using Bimodal Convolutional Neural Networks [19.639533220155965]
本稿では,畳み込み型ニューラルネットワークのマルチモーダルな騙し検出への応用について検討する。
2つのトピックについて104人の被験者にインタビューして構築したデータセットを使用します。
論文 参考訳(メタデータ) (2023-11-18T02:44:33Z) - FusionU-Net: U-Net with Enhanced Skip Connection for Pathology Image
Segmentation [9.70345458475663]
FusionU-NetはU-Net構造に基づいており、異なるスキップ接続間で情報を交換するためのフュージョンモジュールを備えている。
その結果,FusionU-Netは競合する他の手法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T02:56:10Z) - I2SRM: Intra- and Inter-Sample Relationship Modeling for Multimodal
Information Extraction [10.684005956288347]
本稿では,本課題に対するサンプル内およびサンプル間関係モデリング(I2SRM)手法を提案する。
提案手法は,Twitter-2015で77.12%のF1スコア,Twitter-2017で88.40%のF1スコア,MNREで84.12%のF1スコアと競合する結果を得た。
論文 参考訳(メタデータ) (2023-10-10T05:50:25Z) - Investigating Neuron Disturbing in Fusing Heterogeneous Neural Networks [6.389882065284252]
本稿では,異種局所モデルのニューロン同士が相互に干渉するニューロン乱れ現象を明らかにする。
本稿では,ニューラルネットワークの乱れを排除し,AMSと呼ばれる局所モデルを適応的に選択して予測を行う実験手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T06:47:48Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Sequence-to-Sequence Load Disaggregation Using Multi-Scale Residual
Neural Network [4.094944573107066]
非侵入負荷モニタリング(Non-Intrusive Load Monitoring, NILM)は、電力をモニタするコスト効率の高い方法として、ますます注目されている。
ディープニューラルネットワークは、負荷分散の分野で大きな可能性を示している。
論文 参考訳(メタデータ) (2020-09-25T17:41:28Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Fusion Recurrent Neural Network [88.5550074808201]
我々は、新しい簡潔かつ有望なRNN-Fusion Recurrent Neural Network (Fusion RNN)を提案する。
Fusion RNNはFusionモジュールとTransportモジュールで構成されている。
本研究では,Fusion RNNのシーケンス特徴抽出能力を評価するために,シーケンスデータ,到着推定時刻(ETA)の代表的なデータマイニングタスクを選択し,Fusion RNNに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-06-07T07:39:49Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。