論文の概要: Priberam Labs at the NTCIR-15 SHINRA2020-ML: Classification Task
- arxiv url: http://arxiv.org/abs/2105.05605v1
- Date: Wed, 12 May 2021 11:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:33:29.882266
- Title: Priberam Labs at the NTCIR-15 SHINRA2020-ML: Classification Task
- Title(参考訳): Priberam Labs at NTCIR-15 ShiNRA2020-ML: Classification Task
- Authors: Ruben Cardoso, Afonso Mendes, Andre Lamurias
- Abstract要約: ShiNRA 2020-MLタスクは、ウィキペディアページを利用して、対応するエンティティを268階層のカテゴリに分類する。
BERTが生み出す文脈的埋め込みに基づく3つのモデルを提案する。
微調整のプロセスでは見られないものを含め、さまざまな言語で優れたパフォーマンスを実現できたのです。
- 参考スコア(独自算出の注目度): 2.0985487163597147
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Wikipedia is an online encyclopedia available in 285 languages. It composes
an extremely relevant Knowledge Base (KB), which could be leveraged by
automatic systems for several purposes. However, the structure and organisation
of such information are not prone to automatic parsing and understanding and it
is, therefore, necessary to structure this knowledge. The goal of the current
SHINRA2020-ML task is to leverage Wikipedia pages in order to categorise their
corresponding entities across 268 hierarchical categories, belonging to the
Extended Named Entity (ENE) ontology. In this work, we propose three distinct
models based on the contextualised embeddings yielded by Multilingual BERT. We
explore the performances of a linear layer with and without explicit usage of
the ontology's hierarchy, and a Gated Recurrent Units (GRU) layer. We also test
several pooling strategies to leverage BERT's embeddings and selection criteria
based on the labels' scores. We were able to achieve good performance across a
large variety of languages, including those not seen during the fine-tuning
process (zero-shot languages).
- Abstract(参考訳): Wikipediaは285の言語で利用できるオンライン百科事典である。
それは極めて関連する知識ベース(KB)を構成し、いくつかの目的のために自動システムによって活用できる。
しかし、そのような情報の構造や組織は自動解析や理解が難しいわけではなく、そのため、この知識を構築する必要がある。
現在のShiNRA2020-MLタスクの目標は、ウィキペディアページを活用して、拡張名前付きエンティティ(ENE)オントロジーに属する268の階層カテゴリに該当するエンティティを分類することである。
本研究では,多言語BERTにより得られる文脈的埋め込みに基づく3つの異なるモデルを提案する。
我々は、オントロジー階層の明示的使用と使用のない線形層とGRU(Gated Recurrent Units)層の性能について検討する。
また、ラベルのスコアに基づいてBERTの埋め込みと選択基準を活用するために、いくつかのプーリング戦略をテストする。
細かいチューニングプロセス(ゼロショット言語)では見られないものを含め、さまざまな言語で優れたパフォーマンスを実現できたのです。
関連論文リスト
- Learning Hierarchical Prompt with Structured Linguistic Knowledge for
Vision-Language Models [43.56153167864033]
大規模言語モデル(LLM)における構造化知識を活用する新しい手法を提案する。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
さらに、高レベルのプロンプトとグローバルレベルのプロンプトを組み込むことで、提案された階層構造は、クロスレベルのインターリンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文 参考訳(メタデータ) (2023-12-11T12:14:06Z) - Sparsify-then-Classify: From Internal Neurons of Large Language Models
To Efficient Text Classifiers [4.81502049551298]
本稿では,全ての活性化状態と隠蔽状態に複数のプーリング戦略を適用することで,すべての内部表現を利用する手法を提案する。
我々の新しい軽量戦略であるSparsify-then-Classify (STC) は、まずタスク固有の機能を階層ごとに分散し、次にテキスト分類のために階層に集約する。
モデルとデータセットの包括的集合に関する実験により、STCは事前訓練されたモデルと微調整されたモデルの分類性能を一貫して改善するだけでなく、トレーニングと推論の両方においてより効率的であり、本質的に解釈可能であることが示された。
論文 参考訳(メタデータ) (2023-11-27T16:28:20Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - How Deep Neural Networks Learn Compositional Data: The Random Hierarchy
Model [50.45582596865073]
言語と画像の階層構造にインスパイアされた合成タスクのファミリーであるランダム階層モデルを紹介する。
深層ネットワークは、等価なグループを交換するために不変な内部表現を開発することでタスクを学習する。
この結果から, ネットワークは次元の呪いを克服し, 不変表現を構築できることが示唆された。
論文 参考訳(メタデータ) (2023-07-05T09:11:09Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets [24.868024094095983]
オープン語彙モデル(例えばCLIP)はゼロショット分類において強い性能を示している。
暗黙的な意味的階層を持つデータセットに対する階層的ラベルセット(CHiLS)を用いた分類を提案する。
CHiLSは既存のゼロショットパイプラインで簡単に実装でき、追加のトレーニングコストを必要としない。
論文 参考訳(メタデータ) (2023-02-06T03:59:15Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - Recurrent Neural Networks with Mixed Hierarchical Structures for Natural
Language Processing [13.960152426268767]
階層構造は言語処理と自然言語処理の両方に存在している。
自然言語の階層的表現を学習するためにRNNを設計する方法は、長年にわたる課題である。
本稿では,静的境界と動的境界という2種類の境界を定義し,文書分類タスクのための多層階層構造を構築する。
論文 参考訳(メタデータ) (2021-06-04T15:50:42Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。