論文の概要: FlexiTerm: A more efficient implementation of flexible multi-word term
recognition
- arxiv url: http://arxiv.org/abs/2110.06981v1
- Date: Wed, 13 Oct 2021 18:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 10:18:00.705138
- Title: FlexiTerm: A more efficient implementation of flexible multi-word term
recognition
- Title(参考訳): FlexiTerm: フレキシブルマルチワード語認識のより効率的な実装
- Authors: Irena Spasic
- Abstract要約: FlexiTermはドメイン固有コーパスからのMWT認識のための完全に教師なしの手法である。
元々は概念実証としてJavaで実装されていたが、スケールがうまくいかなかったため、ビッグデータのコンテキストにおいて実践的な価値はほとんど得られなかった。
本稿では,Pythonにおける再実装について述べるとともに,これらの2つの実装の性能を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Terms are linguistic signifiers of domain-specific concepts. Automated
recognition of multi-word terms (MWT) in free text is a sequence labelling
problem, which is commonly addressed using supervised machine learning methods.
Their need for manual annotation of training data makes it difficult to port
such methods across domains. FlexiTerm, on the other hand, is a fully
unsupervised method for MWT recognition from domain-specific corpora.
Originally implemented in Java as a proof of concept, it did not scale well,
thus offering little practical value in the context of big data. In this paper,
we describe its re-implementation in Python and compare the performance of
these two implementations. The results demonstrated major improvements in terms
of efficiency, which allow FlexiTerm to transition from the proof of concept to
the production-grade application.
- Abstract(参考訳): 用語はドメイン固有の概念の言語記号である。
自由テキストにおけるマルチワード語(MWT)の自動認識はシーケンスラベリングの問題であり、一般に教師付き機械学習手法を用いて対処される。
トレーニングデータの手動アノテーションが必要なため、そのようなメソッドをドメイン間で移植するのは困難である。
一方、FlexiTermはドメイン固有コーパスからのMWT認識のための完全に教師なしの手法である。
元々はjavaで概念実証として実装されていたが、スケールがうまくいかなかったため、ビッグデータのコンテキストにおいて実用的価値はほとんど提供されなかった。
本稿では,Pythonにおける再実装について述べるとともに,これらの2つの実装の性能を比較する。
その結果、効率の面で大きな改善があったため、flexitermは概念実証から製品グレードのアプリケーションへの移行を可能にした。
関連論文リスト
- Efficient Terminology Integration for LLM-based Translation in Specialized Domains [0.0]
特許、金融、バイオメディカルドメインなどの専門分野において、用語は翻訳に不可欠である。
本稿では,用語翻訳の精度を保ちながら,少ない量のデータで効率的にモデルを訓練する手法を提案する。
この手法は、専門用語を扱うモデルの能力を高め、高品質な翻訳を保証する。
論文 参考訳(メタデータ) (2024-10-21T07:01:25Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Semantic Connectivity-Driven Pseudo-labeling for Cross-domain
Segmentation [89.41179071022121]
自己学習はドメイン間セマンティックセグメンテーションにおいて一般的なアプローチである。
本稿ではセマンティック・コネクティビティ駆動の擬似ラベル方式を提案する。
このアプローチは、接続レベルにおいて擬似ラベルを定式化し、構造的および低雑音のセマンティクスの学習を容易にする。
論文 参考訳(メタデータ) (2023-12-11T12:29:51Z) - Towards Open-Ended Visual Recognition with Large Language Model [27.56182473356992]
我々は,新しいLarge Language Model (LLM) ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。
OSMは、クラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。
また、人間の干渉なしにデータセット間のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-11-14T18:59:01Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Balancing Multi-Domain Corpora Learning for Open-Domain Response
Generation [3.3242685629646256]
オープンドメインの会話システムは、複数のドメインで等しく良い応答を生成すると仮定される。
本稿では,複数ドメインのコーパスに対して関連性のある応答を生成する手法について検討する。
論文 参考訳(メタデータ) (2022-05-05T11:10:54Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain
Detection [60.88952532574564]
本稿では,ドメイン外インテント検出手法を徹底的に比較する。
意図分類のための3つの標準データセット上で,複数のコンテキストエンコーダとメソッドを効率良く評価する。
本研究の主目的は,超微調整トランスフォーマーを用いたドメイン内データエンコーダが優れた結果をもたらすことである。
論文 参考訳(メタデータ) (2021-01-11T09:10:58Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。