論文の概要: Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification
- arxiv url: http://arxiv.org/abs/2110.14764v2
- Date: Mon, 7 Feb 2022 21:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 11:19:09.024616
- Title: Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification
- Title(参考訳): generalized funnelling: 言語間テキスト分類のためのアンサンブル学習とヘテロジニアス文書埋め込み
- Authors: Alejandro Moreo, Andrea Pedrotti, Fabrizio Sebastiani
- Abstract要約: emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 78.83284164605473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: \emph{Funnelling} (Fun) is a recently proposed method for cross-lingual text
classification (CLTC) based on a two-tier learning ensemble for heterogeneous
transfer learning (HTL). In this ensemble method, 1st-tier classifiers, each
working on a different and language-dependent feature space, return a vector of
calibrated posterior probabilities (with one dimension for each class) for each
document, and the final classification decision is taken by a metaclassifier
that uses this vector as its input. The metaclassifier can thus exploit
class-class correlations, and this (among other things) gives Fun an edge over
CLTC systems in which these correlations cannot be brought to bear. In this
paper we describe \emph{Generalized Funnelling} (gFun), a generalization of Fun
consisting of an HTL architecture in which 1st-tier components can be arbitrary
\emph{view-generating functions}, i.e., language-dependent functions that each
produce a language-independent representation ("view") of the (monolingual)
document. We describe an instance of gFun in which the metaclassifier receives
as input a vector of calibrated posterior probabilities (as in Fun) aggregated
to other embedded representations that embody other types of correlations, such
as word-class correlations (as encoded by \emph{Word-Class Embeddings}),
word-word correlations (as encoded by \emph{Multilingual Unsupervised or
Supervised Embeddings}), and word-context correlations (as encoded by
\emph{multilingual BERT}). We show that this instance of \textsc{gFun}
substantially improves over Fun and over state-of-the-art baselines, by
reporting experimental results obtained on two large, standard datasets for
multilingual multilabel text classification. Our code that implements gFun is
publicly available.
- Abstract(参考訳): \emph{Funnelling} (Fun) は、最近提案された言語間テキスト分類法(CLTC)であり、ヘテロジニアス・トランスファー・ラーニング(HTL)のための2層学習アンサンブルに基づいている。
このアンサンブル法では、1階分類器がそれぞれ異なる言語に依存した特徴空間で作業し、各文書に対して校正後続確率ベクトル(各クラスに1次元)を返却し、このベクトルを入力とするメタクラス化器によって最終分類決定を行う。
このようにメタクラス化器はクラスクラス相関を活用でき、(他のものと同様に)これらの相関を耐えられないcltcシステムに対するエッジを与えることができる。
本稿では,第1層コンポーネントを任意の \emph{view-generating function},すなわち(単言語)文書の言語非依存表現(ビュー)を生成する言語依存関数とする,htlアーキテクチャからなる楽しさの一般化である \emph{generalized funnelling} (gfun) について述べる。
本稿では, メタ分類器が, 単語クラス相関(emph{Word-Class Embeddings}でエンコードされる), 単語相関(emph{Multilingual Unsupervised or Supervised Embeddings}でエンコードされる), 単語コンテキスト相関(emph{Multilingual BERT}でエンコードされる)など, 単語クラス相関を具現化した他の組込み表現に集約された, キャリブレーション後確率のベクトルとして入力されるgFunの例について述べる。
本稿では,多言語多段テキスト分類のための2つの大規模標準データセットから得られた実験結果を報告することにより,楽しさや最先端のベースラインよりも大幅に改善することを示す。
gFunを実装した私たちのコードは公開されています。
関連論文リスト
- Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Weakly Supervised Text Classification using Supervision Signals from a
Language Model [33.5830441120473]
我々は文書自体と「この記事は[MASK]について話している」ことを組み合わせたプロンプトを設計する。
マスク付き言語モデルは[MASK]トークンの単語を生成することができる。
文書の内容を要約した生成された単語を監視信号として利用することができる。
論文 参考訳(メタデータ) (2022-05-13T12:57:15Z) - Exploiting Local and Global Features in Transformer-based Extreme
Multi-label Text Classification [28.28186933768281]
本稿では,Transformerモデルが生成する局所的特徴とグローバル的特徴を組み合わせることで,分類器の予測能力を向上させる手法を提案する。
本実験は,提案モデルがベンチマークデータセットの最先端手法よりも優れているか,あるいは同等であることを示す。
論文 参考訳(メタデータ) (2022-04-02T19:55:23Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。