論文の概要: Contrastive Training Improves Zero-Shot Classification of
Semi-structured Documents
- arxiv url: http://arxiv.org/abs/2210.05613v1
- Date: Tue, 11 Oct 2022 16:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:01:04.179063
- Title: Contrastive Training Improves Zero-Shot Classification of
Semi-structured Documents
- Title(参考訳): コントラストトレーニングによる半構造化文書のゼロショット分類の改善
- Authors: Muhammad Khalifa, Yogarshi Vyas, Shuai Wang, Graham Horwood, Sunil
Mallya, Miguel Ballesteros
- Abstract要約: ゼロショット設定における半構造化文書の分類について検討する。
本稿では,事前学習と微調整の両目的を両立するマッチング型アプローチを提案する。
- 参考スコア(独自算出の注目度): 30.576388060731077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate semi-structured document classification in a zero-shot
setting. Classification of semi-structured documents is more challenging than
that of standard unstructured documents, as positional, layout, and style
information play a vital role in interpreting such documents. The standard
classification setting where categories are fixed during both training and
testing falls short in dynamic environments where new document categories could
potentially emerge. We focus exclusively on the zero-shot setting where
inference is done on new unseen classes. To address this task, we propose a
matching-based approach that relies on a pairwise contrastive objective for
both pretraining and fine-tuning. Our results show a significant boost in Macro
F$_1$ from the proposed pretraining step in both supervised and unsupervised
zero-shot settings.
- Abstract(参考訳): 半構造化文書の分類をゼロショットで検討する。
半構造化文書の分類は標準的な非構造化文書よりも困難であり、位置、レイアウト、スタイル情報はそれらの文書の解釈において重要な役割を果たす。
トレーニングとテストの両方でカテゴリが固定される標準的な分類設定は、新しいドキュメントカテゴリが発生する可能性のある動的環境では不足している。
我々は、新しいunseenクラスで推論が行われるゼロショット設定にのみ焦点を合わせます。
この課題に対処するために,事前学習と微調整の両目的を両立するマッチング型アプローチを提案する。
その結果,教師なしおよび教師なしのゼロショット設定において,事前学習段階からマクロf$_1$が大幅に向上した。
関連論文リスト
- Blueprinting the Future: Automatic Item Categorization using
Hierarchical Zero-Shot and Few-Shot Classifiers [6.907552533477328]
本研究では,ゼロショットおよび少数ショット生成事前学習変換器(GPT)を用いた階層的項目分類手法を提案する。
検査ブループリントの階層的な性質はシームレスにナビゲートされ、複数のレベルの項目を階層的に分類することができる。
人工データによる初期シミュレーションは、この方法の有効性を示し、F1スコアで測定された平均精度92.91%を達成する。
論文 参考訳(メタデータ) (2023-12-06T15:51:49Z) - Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。
我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文 参考訳(メタデータ) (2023-08-24T16:16:47Z) - Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文 参考訳(メタデータ) (2023-06-01T18:01:33Z) - Label Agnostic Pre-training for Zero-shot Text Classification [4.9081735096855565]
現実世界の応用では、与えられたテキストを記述するための無限ラベル空間が存在する。
我々は2つの新しいシンプルで効果的な事前学習戦略、ImplicitとExplicitの事前学習を導入する。
これらのメソッドは、タスクレベルの理解を構築するためにモデルを条件付けすることを目的として、列車時のモデルにアスペクトレベルの理解を注入します。
論文 参考訳(メタデータ) (2023-05-25T22:55:32Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - A Systematic Comparison of Architectures for Document-Level Sentiment
Classification [14.670220716382515]
文書レベルの感情分類における階層モデルと伝達学習を比較した。
5つの言語において,非自明な階層モデルが過去のベースラインを上回り,文書レベルの感情分類に基づく伝達学習を行うことを示す。
論文 参考訳(メタデータ) (2020-02-19T12:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。