論文の概要: A Web Scale Entity Extraction System
- arxiv url: http://arxiv.org/abs/2110.00423v1
- Date: Fri, 27 Aug 2021 16:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 00:45:06.742468
- Title: A Web Scale Entity Extraction System
- Title(参考訳): Webスケールエンティティ抽出システム
- Authors: Xuanting Cai, Quanbin Ma, Pan Li, Jianyu Liu, Qi Zeng, Zhengkan Yang,
Pushkar Tripathi
- Abstract要約: 我々は,複数種類の文書を大規模に抽出するエンティティ抽出システムを構築する上で,我々の取り組みから学んだことを提示する。
我々は,多言語,マルチタスク,クロスドキュメント型学習の有効性を実証的に実証した。
また,収集したデータのノイズ量を最小限に抑えるためのラベル収集手法についても論じる。
- 参考スコア(独自算出の注目度): 9.300916856534007
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Understanding the semantic meaning of content on the web through the lens of
entities and concepts has many practical advantages. However, when building
large-scale entity extraction systems, practitioners are facing unique
challenges involving finding the best ways to leverage the scale and variety of
data available on internet platforms. We present learnings from our efforts in
building an entity extraction system for multiple document types at large scale
using multi-modal Transformers. We empirically demonstrate the effectiveness of
multi-lingual, multi-task and cross-document type learning. We also discuss the
label collection schemes that help to minimize the amount of noise in the
collected data.
- Abstract(参考訳): 実体や概念のレンズを通してウェブ上のコンテンツの意味を理解することは、多くの実用的な利点がある。
しかし、大規模なエンティティ抽出システムを構築する場合、実践者はインターネットプラットフォームで利用可能なスケールとさまざまなデータを活用する最善の方法を見つけるという、ユニークな課題に直面している。
マルチモーダル変換器を用いて,複数の文書タイプを大規模に抽出するエンティティ抽出システムの構築について,我々の取り組みから学ぶ。
我々は,多言語,マルチタスク,クロスドキュメント型学習の有効性を実証的に実証した。
また,収集したデータのノイズ量を最小限に抑えるためのラベル収集手法についても論じる。
関連論文リスト
- Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Many or Few Samples? Comparing Transfer, Contrastive and Meta-Learning
in Encrypted Traffic Classification [68.19713459228369]
我々は、トランスファーラーニング、メタラーニング、コントラストラーニングを、参照機械学習(ML)ツリーベースおよびモノリシックDLモデルと比較する。
i) 大規模なデータセットを用いて,より一般的な表現を得られること,(ii) コントラスト学習が最良の手法であることを示している。
MLツリーベースでは大きなタスクは処理できないが、学習した表現を再利用することで、小さなタスクにも適合するが、DLメソッドはツリーベースモデルのパフォーマンスにも到達している。
論文 参考訳(メタデータ) (2023-05-21T11:20:49Z) - DICNet: Deep Instance-Level Contrastive Network for Double Incomplete
Multi-View Multi-Label Classification [20.892833511657166]
実世界におけるマルチビューマルチラベルデータは、データ収集や手動アノテーションの不確実性のため、一般的に不完全である。
本稿では,DICNetという深層インスタンスレベルのコントラストネットワークを提案し,二重不完全なマルチラベル分類問題に対処する。
我々のDICNetは、マルチビュー多ラベルデータの一貫した識別的表現を捉え、欠落したビューと欠落したラベルの負の影響を避けることに長けている。
論文 参考訳(メタデータ) (2023-03-15T04:24:01Z) - ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document
Understanding [31.227481709446746]
既存のアプローチは主に単語や文書画像などのきめ細かい要素に焦点を当てており、粗い要素から学ぶことは困難である。
本稿では,高密度情報と一貫したセマンティクスを含む粗粒状要素に,より重要度を付加する。
提案手法は,細粒度要素に基づくマルチモーダル変換器の性能向上と,パラメータの少ない性能向上を実現する。
論文 参考訳(メタデータ) (2022-09-18T13:46:56Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension [21.000045864213327]
参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T08:32:47Z) - Learning to Imagine: Diversify Memory for Incremental Learning using
Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。
生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。
提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-19T15:15:18Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - End-to-End Information Extraction by Character-Level Embedding and
Multi-Stage Attentional U-Net [0.9137554315375922]
本稿では,文書の2次元キャラクタグリッド埋め込みにおけるエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャを提案する。
このモデルでは,パラメータを40%減らしながら,ベースラインのU-Netアーキテクチャを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2021-06-02T05:42:51Z) - CDA: a Cost Efficient Content-based Multilingual Web Document Aligner [97.98885151955467]
多言語のWebドキュメントをコンテンツに基づいて整列させる、Content-based Document Alignmentアプローチを紹介します。
我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。
実験によると、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2021-02-20T03:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。