論文の概要: Retrieval-Augmented Classification with Decoupled Representation
- arxiv url: http://arxiv.org/abs/2303.13065v1
- Date: Thu, 23 Mar 2023 06:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:34:28.767746
- Title: Retrieval-Augmented Classification with Decoupled Representation
- Title(参考訳): Decoupled Representation を用いた検索拡張分類
- Authors: Xinnian Liang, Shuangzhi Wu, Hui Huang, Jiaqi Bai, Chao Bian, Zhoujun
Li
- Abstract要約: 文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
MigBERTは、これらすべてのタスクで新しいSOTAパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 31.662843145399044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models (PLMs) have shown marvelous improvements across
various NLP tasks. Most Chinese PLMs simply treat an input text as a sequence
of characters, and completely ignore word information. Although Whole Word
Masking can alleviate this, the semantics in words is still not well
represented. In this paper, we revisit the segmentation granularity of Chinese
PLMs. We propose a mixed-granularity Chinese BERT (MigBERT) by considering both
characters and words. To achieve this, we design objective functions for
learning both character and word-level representations. We conduct extensive
experiments on various Chinese NLP tasks to evaluate existing PLMs as well as
the proposed MigBERT. Experimental results show that MigBERT achieves new SOTA
performance on all these tasks. Further analysis demonstrates that words are
semantically richer than characters. More interestingly, we show that MigBERT
also works with Japanese. Our code has been released
here~\footnote{\url{https://github.com/xnliang98/MigBERT}} and you can download
our model here~\footnote{\url{https://huggingface.co/xnliang/MigBERT-large/}}.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、様々なNLPタスクで驚くほど改善されている。
ほとんどの中国語のPLMは入力テキストを文字のシーケンスとして扱い、単語情報を完全に無視する。
全単語マスキングはこれを緩和できるが、単語の意味論はいまだよく表現されていない。
本稿では,中国のplmのセグメンテーション粒度を再検討する。
文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
これを実現するために,文字および単語レベルの表現を学習するための目的関数を設計する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
実験結果から,MigBERTは全てのタスクにおいて新しいSOTA性能を実現することがわかった。
さらに分析すると、単語は文字よりも意味的に豊かであることが示される。
さらに興味深いのは、MigBERTが日本語でも使えることだ。
私たちのコードはここ~\footnote{\url{https://github.com/xnliang98/MigBERT}}でリリースされています。
関連論文リスト
- A Generic Method for Fine-grained Category Discovery in Natural Language Texts [38.297873969795546]
そこで本研究では,新たな目的関数によって導かれる意味的類似テキストの微細なクラスタをうまく検出する手法を提案する。
この方法は対数空間における意味的類似性を利用してユークリッド空間のサンプル分布を導く。
また,リアルタイムアプリケーションをサポートするセントロイド推論機構を提案する。
論文 参考訳(メタデータ) (2024-06-18T23:27:46Z) - Cluster-Aware Similarity Diffusion for Instance Retrieval [64.40171728912702]
拡散に基づく再ランク付け(diffusion-based re-level)は、隣り合うグラフで類似性の伝播を実行することで、インスタンスを検索する一般的な方法である。
本稿では,新しいクラスタ・アウェア類似性(CAS)拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-04T14:19:50Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - An Upper Bound for the Distribution Overlap Index and Its Applications [18.481370450591317]
本稿では,2つの確率分布間の重なり関数に対する計算容易な上限を提案する。
提案した境界は、一級分類と領域シフト解析においてその値を示す。
私たちの研究は、重複ベースのメトリクスの応用を拡大する大きな可能性を示しています。
論文 参考訳(メタデータ) (2022-12-16T20:02:03Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - Exploring Category-correlated Feature for Few-shot Image Classification [27.13708881431794]
本稿では,従来の知識として,新しいクラスとベースクラスのカテゴリ相関を探索し,シンプルで効果的な特徴補正手法を提案する。
提案手法は, 広く使用されている3つのベンチマークにおいて, 一定の性能向上が得られる。
論文 参考訳(メタデータ) (2021-12-14T08:25:24Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Open-Set Recognition with Gaussian Mixture Variational Autoencoders [91.3247063132127]
推論において、オープンセット分類は、サンプルをトレーニングから既知のクラスに分類するか、未知のクラスとして拒絶するかのどちらかである。
我々は,協調的に再構築を学習し,潜在空間におけるクラスベースのクラスタリングを行うよう,我々のモデルを訓練する。
我々のモデルは、より正確で堅牢なオープンセット分類結果を実現し、平均的なF1改善率は29.5%である。
論文 参考訳(メタデータ) (2020-06-03T01:15:19Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。