論文の概要: Priberam Labs at the NTCIR-15 SHINRA2020-ML: Classification Task
- arxiv url: http://arxiv.org/abs/2105.05605v1
- Date: Wed, 12 May 2021 11:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:33:29.882266
- Title: Priberam Labs at the NTCIR-15 SHINRA2020-ML: Classification Task
- Title(参考訳): Priberam Labs at NTCIR-15 ShiNRA2020-ML: Classification Task
- Authors: Ruben Cardoso, Afonso Mendes, Andre Lamurias
- Abstract要約: ShiNRA 2020-MLタスクは、ウィキペディアページを利用して、対応するエンティティを268階層のカテゴリに分類する。
BERTが生み出す文脈的埋め込みに基づく3つのモデルを提案する。
微調整のプロセスでは見られないものを含め、さまざまな言語で優れたパフォーマンスを実現できたのです。
- 参考スコア(独自算出の注目度): 2.0985487163597147
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Wikipedia is an online encyclopedia available in 285 languages. It composes
an extremely relevant Knowledge Base (KB), which could be leveraged by
automatic systems for several purposes. However, the structure and organisation
of such information are not prone to automatic parsing and understanding and it
is, therefore, necessary to structure this knowledge. The goal of the current
SHINRA2020-ML task is to leverage Wikipedia pages in order to categorise their
corresponding entities across 268 hierarchical categories, belonging to the
Extended Named Entity (ENE) ontology. In this work, we propose three distinct
models based on the contextualised embeddings yielded by Multilingual BERT. We
explore the performances of a linear layer with and without explicit usage of
the ontology's hierarchy, and a Gated Recurrent Units (GRU) layer. We also test
several pooling strategies to leverage BERT's embeddings and selection criteria
based on the labels' scores. We were able to achieve good performance across a
large variety of languages, including those not seen during the fine-tuning
process (zero-shot languages).
- Abstract(参考訳): Wikipediaは285の言語で利用できるオンライン百科事典である。
それは極めて関連する知識ベース(KB)を構成し、いくつかの目的のために自動システムによって活用できる。
しかし、そのような情報の構造や組織は自動解析や理解が難しいわけではなく、そのため、この知識を構築する必要がある。
現在のShiNRA2020-MLタスクの目標は、ウィキペディアページを活用して、拡張名前付きエンティティ(ENE)オントロジーに属する268の階層カテゴリに該当するエンティティを分類することである。
本研究では,多言語BERTにより得られる文脈的埋め込みに基づく3つの異なるモデルを提案する。
我々は、オントロジー階層の明示的使用と使用のない線形層とGRU(Gated Recurrent Units)層の性能について検討する。
また、ラベルのスコアに基づいてBERTの埋め込みと選択基準を活用するために、いくつかのプーリング戦略をテストする。
細かいチューニングプロセス(ゼロショット言語)では見られないものを含め、さまざまな言語で優れたパフォーマンスを実現できたのです。
関連論文リスト
- End-to-End Ontology Learning with Large Language Models [11.755755139228219]
大規模言語モデル(LLM)は、オントロジー学習の様々なサブタスクを解決するために応用されている。
我々は、オントロジーの分類学的バックボーンをスクラッチから構築する汎用的でスケーラブルな方法であるOLLMによって、このギャップに対処する。
標準的なメトリクスとは対照的に、私たちのメトリクスは、グラフ間のより堅牢な構造的距離測定を定義するためにディープラーニング技術を使用します。
私たちのモデルは、arXivのような新しいドメインに効果的に適用できます。
論文 参考訳(メタデータ) (2024-10-31T02:52:39Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Neural Architecture Search for Sentence Classification with BERT [4.862490782515929]
計算コストが小さいだけで,現在の単一層よりも優れたアーキテクチャを見つけるために,AutoML検索を実行します。
GLUEデータセットから,様々なNLPベンチマークを用いて分類アーキテクチャを検証する。
論文 参考訳(メタデータ) (2024-03-27T13:25:43Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets [24.868024094095983]
オープン語彙モデル(例えばCLIP)はゼロショット分類において強い性能を示している。
暗黙的な意味的階層を持つデータセットに対する階層的ラベルセット(CHiLS)を用いた分類を提案する。
CHiLSは既存のゼロショットパイプラインで簡単に実装でき、追加のトレーニングコストを必要としない。
論文 参考訳(メタデータ) (2023-02-06T03:59:15Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - Recurrent Neural Networks with Mixed Hierarchical Structures for Natural
Language Processing [13.960152426268767]
階層構造は言語処理と自然言語処理の両方に存在している。
自然言語の階層的表現を学習するためにRNNを設計する方法は、長年にわたる課題である。
本稿では,静的境界と動的境界という2種類の境界を定義し,文書分類タスクのための多層階層構造を構築する。
論文 参考訳(メタデータ) (2021-06-04T15:50:42Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。