論文の概要: Improving Large-Scale k-Nearest Neighbor Text Categorization with Label
Autoencoders
- arxiv url: http://arxiv.org/abs/2402.01963v1
- Date: Sat, 3 Feb 2024 00:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:15:12.652363
- Title: Improving Large-Scale k-Nearest Neighbor Text Categorization with Label
Autoencoders
- Title(参考訳): ラベルオートエンコーダによる大規模k-nearest近傍テキスト分類の改善
- Authors: Francisco J. Ribadas-Pena, Shuyuan Cao, V\'ictor M. Darriba Bilbao
- Abstract要約: 本稿では,大規模文書コレクションの自動セマンティックインデックス処理を扱うために,多ラベル遅延学習手法を提案する。
提案手法は従来のk-Nearest Neighborsアルゴリズムの進化である。
我々は,MEDLINEバイオメディカル文書コレクションの大部分において提案提案を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a multi-label lazy learning approach to deal with
automatic semantic indexing in large document collections in the presence of
complex and structured label vocabularies with high inter-label correlation.
The proposed method is an evolution of the traditional k-Nearest Neighbors
algorithm which uses a large autoencoder trained to map the large label space
to a reduced size latent space and to regenerate the predicted labels from this
latent space. We have evaluated our proposal in a large portion of the MEDLINE
biomedical document collection which uses the Medical Subject Headings (MeSH)
thesaurus as a controlled vocabulary. In our experiments we propose and
evaluate several document representation approaches and different label
autoencoder configurations.
- Abstract(参考訳): 本稿では,ラベル間相関の高い複雑なラベル語彙の存在下で,大規模文書コレクションの自動意味索引付けを扱うマルチラベル遅延学習手法を提案する。
提案手法は従来のk-Nearest Neighborsアルゴリズムの進化であり,大容量のラベル空間を縮小されたラテント空間にマッピングし,予測されたラベルをこのラテント空間から再生するように訓練された大オートエンコーダを用いる。
mesh(medical subject headings)シソーラスを制御語彙として用いたmedline biomedical document collectionにおいて,本提案の有効性を評価した。
実験では,複数の文書表現手法と異なるラベル自動エンコーダ構成を提案し評価した。
関連論文リスト
- Prototypical Extreme Multi-label Classification with a Dynamic Margin Loss [6.244642999033755]
XMC (Extreme Multi-label Classification) メソッドは、非常に大きなラベル空間において、与えられたクエリの関連ラベルを予測する。
XMCにおける最近の研究は、テキスト記述を最も近いラベルの復元に適した埋め込み空間に投影するディープエンコーダを用いてこの問題に対処している。
本稿では,新しいプロトタイプ・コントラスト学習技術を用いて,ブルートフォース手法を超越した効率と性能を再現するXMC手法PRIMEを提案する。
論文 参考訳(メタデータ) (2024-10-27T10:24:23Z) - Data-driven Coreference-based Ontology Building [48.995395445597225]
参照解決は、伝統的に個々の文書理解のコンポーネントとして使用される。
よりグローバルな視点で、すべてのドキュメントレベルのコア参照関係から、ドメインについて何が学べるかを探求します。
コードとともに、クリエイティブ・コモンズライセンスの下でコア参照チェーンをリリースします。
論文 参考訳(メタデータ) (2024-10-22T14:30:40Z) - Text2Tree: Aligning Text Representation to the Label Tree Hierarchy for
Imbalanced Medical Classification [9.391704905671476]
本稿では、医療用テキストにおけるデータ課題を再考し、Text2Treeと呼ばれるフレームワークに依存しない新しいアルゴリズムを提案する。
ラベルのICDコードツリー構造をカスケードアテンションモジュールに組み込んで階層型ラベル表現を学習する。
異なるラベルのサンプルを再利用・識別することでテキスト分類を向上させるために,2つの新しい学習手法であるSimisity Surrogate Learning (SSL) とDissimilarity Mixup Learning (DML) が考案された。
論文 参考訳(メタデータ) (2023-11-28T10:02:08Z) - Weakly-Supervised Scientific Document Classification via
Retrieval-Augmented Multi-Stage Training [24.2734548438594]
本稿では,ラベル名のみを用いた科学的文書分類のための弱教師付きアプローチを提案する。
科学的ドメインでは、ラベル名は文書コーパスに現れないドメイン固有の概念を含むことが多い。
WANDER は平均 11.9% で最高のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-12T15:50:13Z) - Retrieval-augmented Multi-label Text Classification [20.100081284294973]
マルチラベルテキスト分類は、大きなラベルセットの設定において難しい課題である。
Retrieval augmentationは、分類モデルのサンプル効率を改善することを目的としている。
本手法は,法および生物医学領域の4つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2023-05-22T14:16:23Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Label-Wise Document Pre-Training for Multi-Label Text Classification [14.439051753832032]
本稿では,ラベル認識情報を用いた文書表現を実現するLW-PT法を提案する。
基本的な考え方は、複数ラベルの文書は、複数のラベルの表現の組み合わせとして表すことができ、相関ラベルは、常に同じまたは類似の文書で共起するということである。
論文 参考訳(メタデータ) (2020-08-15T10:34:27Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。