Fugu-MT 論文翻訳(概要): Priberam Labs at the NTCIR-15 SHINRA2020-ML: Classification Task

論文の概要: Priberam Labs at the NTCIR-15 SHINRA2020-ML: Classification Task

arxiv url: http://arxiv.org/abs/2105.05605v1
Date: Wed, 12 May 2021 11:49:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-13 12:33:29.882266
Title: Priberam Labs at the NTCIR-15 SHINRA2020-ML: Classification Task
Title（参考訳）: Priberam Labs at NTCIR-15 ShiNRA2020-ML: Classification Task
Authors: Ruben Cardoso, Afonso Mendes, Andre Lamurias
Abstract要約: ShiNRA 2020-MLタスクは、ウィキペディアページを利用して、対応するエンティティを268階層のカテゴリに分類する。 BERTが生み出す文脈的埋め込みに基づく3つのモデルを提案する。微調整のプロセスでは見られないものを含め、さまざまな言語で優れたパフォーマンスを実現できたのです。
参考スコア（独自算出の注目度）: 2.0985487163597147
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Wikipedia is an online encyclopedia available in 285 languages. It composes an extremely relevant Knowledge Base (KB), which could be leveraged by automatic systems for several purposes. However, the structure and organisation of such information are not prone to automatic parsing and understanding and it is, therefore, necessary to structure this knowledge. The goal of the current SHINRA2020-ML task is to leverage Wikipedia pages in order to categorise their corresponding entities across 268 hierarchical categories, belonging to the Extended Named Entity (ENE) ontology. In this work, we propose three distinct models based on the contextualised embeddings yielded by Multilingual BERT. We explore the performances of a linear layer with and without explicit usage of the ontology's hierarchy, and a Gated Recurrent Units (GRU) layer. We also test several pooling strategies to leverage BERT's embeddings and selection criteria based on the labels' scores. We were able to achieve good performance across a large variety of languages, including those not seen during the fine-tuning process (zero-shot languages).
Abstract（参考訳）: Wikipediaは285の言語で利用できるオンライン百科事典である。それは極めて関連する知識ベース(KB)を構成し、いくつかの目的のために自動システムによって活用できる。しかし、そのような情報の構造や組織は自動解析や理解が難しいわけではなく、そのため、この知識を構築する必要がある。現在のShiNRA2020-MLタスクの目標は、ウィキペディアページを活用して、拡張名前付きエンティティ(ENE)オントロジーに属する268の階層カテゴリに該当するエンティティを分類することである。本研究では,多言語BERTにより得られる文脈的埋め込みに基づく3つの異なるモデルを提案する。我々は、オントロジー階層の明示的使用と使用のない線形層とGRU(Gated Recurrent Units)層の性能について検討する。また、ラベルのスコアに基づいてBERTの埋め込みと選択基準を活用するために、いくつかのプーリング戦略をテストする。細かいチューニングプロセス(ゼロショット言語)では見られないものを含め、さまざまな言語で優れたパフォーマンスを実現できたのです。

関連論文リスト

Domain Lexical Knowledge-based Word Embedding Learning for Text Classification under Small Data [9.531822246256928]
この問題の根本原因は、文脈に基づくBERTのキーワードの埋め込みは、分類のための差別的なテキスト表現を生成するのに十分な差別的でないことである。この発見を動機として,ドメイン固有の語彙知識を用いて単語埋め込みを強化する手法を開発した。知識に基づく埋め込み拡張モデルでは、BERTをクラス内の類似性とクラス間の差異を最大化する新しい空間に埋め込む。
論文参考訳（メタデータ） (2025-06-02T12:59:41Z)
Focus, Merge, Rank: Improved Question Answering Based on Semi-structured Knowledge Bases [2.6524539020042663]
We present FocusedRetriever, a modular SKB-based framework for multi-hop questioning。コンポーネント(VSSベースのエンティティサーチ、LLMベースのCypherクエリの生成、ペアワイズ再ランク)を統合することで、最先端のメソッドよりも優れたパフォーマンスを実現している。平均第1ヒット率は第2ベストメソッドの25.7%を上回っている。
論文参考訳（メタデータ） (2025-05-14T09:35:56Z)
End-to-End Ontology Learning with Large Language Models [11.755755139228219]
大規模言語モデル(LLM)は、オントロジー学習の様々なサブタスクを解決するために応用されている。我々は、オントロジーの分類学的バックボーンをスクラッチから構築する汎用的でスケーラブルな方法であるOLLMによって、このギャップに対処する。標準的なメトリクスとは対照的に、私たちのメトリクスは、グラフ間のより堅牢な構造的距離測定を定義するためにディープラーニング技術を使用します。私たちのモデルは、arXivのような新しいドメインに効果的に適用できます。
論文参考訳（メタデータ） (2024-10-31T02:52:39Z)
SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。 SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文参考訳（メタデータ） (2024-06-13T02:35:55Z)
Neural Architecture Search for Sentence Classification with BERT [4.862490782515929]
計算コストが小さいだけで,現在の単一層よりも優れたアーキテクチャを見つけるために,AutoML検索を実行します。 GLUEデータセットから,様々なNLPベンチマークを用いて分類アーキテクチャを検証する。
論文参考訳（メタデータ） (2024-03-27T13:25:43Z)
TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision [41.05874642535256]
階層的なテキスト分類は、Webコンテンツ分析やセマンティックインデクシングといった幅広いアプリケーションを用いた基本的なWebテキストマイニングタスクである。初期の研究は、大量の人間の注釈付きデータを必要とする完全あるいは半教師付き手法に重点を置いていた。人間の努力を軽減するため、我々は最小限の監督力で階層的なテキスト分類に取り組む:各ノードのクラス名のみを唯一の監督力として利用する。
論文参考訳（メタデータ） (2024-02-29T22:26:07Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文参考訳（メタデータ） (2023-06-02T23:04:19Z)
CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets [24.868024094095983]
オープン語彙モデル(例えばCLIP)はゼロショット分類において強い性能を示している。暗黙的な意味的階層を持つデータセットに対する階層的ラベルセット(CHiLS)を用いた分類を提案する。 CHiLSは既存のゼロショットパイプラインで簡単に実装でき、追加のトレーニングコストを必要としない。
論文参考訳（メタデータ） (2023-02-06T03:59:15Z)
Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。 PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文参考訳（メタデータ） (2022-11-15T01:13:39Z)
A Machine Learning Approach to Classifying Construction Cost Documents into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文参考訳（メタデータ） (2022-10-24T11:35:53Z)
Recurrent Neural Networks with Mixed Hierarchical Structures for Natural Language Processing [13.960152426268767]
階層構造は言語処理と自然言語処理の両方に存在している。自然言語の階層的表現を学習するためにRNNを設計する方法は、長年にわたる課題である。本稿では,静的境界と動的境界という2種類の境界を定義し,文書分類タスクのための多層階層構造を構築する。
論文参考訳（メタデータ） (2021-06-04T15:50:42Z)
Minimally-Supervised Structure-Rich Text Categorization via Learning on Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文参考訳（メタデータ） (2021-02-23T04:14:34Z)
Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文参考訳（メタデータ） (2020-09-12T17:36:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。