論文の概要: Deep Learning Based Multi-Label Text Classification of UNGA Resolutions
- arxiv url: http://arxiv.org/abs/2004.03455v1
- Date: Wed, 1 Apr 2020 18:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 18:38:29.770876
- Title: Deep Learning Based Multi-Label Text Classification of UNGA Resolutions
- Title(参考訳): 深層学習に基づくUNGA解像度のマルチラベルテキスト分類
- Authors: Francesco Sovrano, Monica Palmirani, Fabio Vitali
- Abstract要約: 本研究は,国連(UN)のための有用なソフトウェアの開発を目的とする。
これは、持続可能な開発目標(SDGs)に続く国連文書の認定プロセスのスピードアップに役立つかもしれない。
本稿では,従来のトランスファー学習やその他高価なトレーニング手順を必要とせずに,事前学習したSOTA DLモデル(Universal Sentenceなど)を活用できる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 13.535770763481905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main goal of this research is to produce a useful software for United
Nations (UN), that could help to speed up the process of qualifying the UN
documents following the Sustainable Development Goals (SDGs) in order to
monitor the progresses at the world level to fight poverty, discrimination,
climate changes. In fact human labeling of UN documents would be a daunting
task given the size of the impacted corpus. Thus, automatic labeling must be
adopted at least as a first step of a multi-phase process to reduce the overall
effort of cataloguing and classifying. Deep Learning (DL) is nowadays one of
the most powerful tools for state-of-the-art (SOTA) AI for this task, but very
often it comes with the cost of an expensive and error-prone preparation of a
training-set. In the case of multi-label text classification of domain-specific
text it seems that we cannot effectively adopt DL without a big-enough
domain-specific training-set. In this paper, we show that this is not always
true. In fact we propose a novel method that is able, through statistics like
TF-IDF, to exploit pre-trained SOTA DL models (such as the Universal Sentence
Encoder) without any need for traditional transfer learning or any other
expensive training procedure. We show the effectiveness of our method in a
legal context, by classifying UN Resolutions according to their most related
SDGs.
- Abstract(参考訳): この研究の主な目的は、国連(UN)のための有用なソフトウェアを作ることで、持続可能な開発目標(SDG)に続く国連文書の認定プロセスのスピードアップに役立ち、貧困、差別、気候変動と戦うための世界レベルでの進歩を監視することである。
実際には、影響のあるコーパスのサイズを考えると、国連文書の人間のラベル付けは厄介な作業になるでしょう。
したがって、自動ラベリングは、少なくとも多段階プロセスの第1段階として採用され、カタログ化と分類の全体的な労力を削減する必要がある。
deep learning (dl)は、現在、このタスクのための最先端(sota)aiのための最も強力なツールの1つだが、非常に多く、高価でエラーやすいトレーニングセットの作成コストがかかる。
ドメイン特化テキストの多ラベルテキスト分類の場合,大容量のドメイン特化トレーニングセットがなければ,DLを効果的に適用することはできないと考えられる。
本稿では,これは必ずしも真実ではないことを示す。
実際、TF-IDFのような統計学を通じて、従来のトランスファー学習やその他高価な訓練手順を必要とせずに、事前訓練されたSOTA DLモデル(Universal Sentence Encoderなど)を活用できる新しい手法を提案する。
我々は,最も関連性の高いSDGに基づいて国連決議を分類し,法的な文脈で本手法の有効性を示す。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Cross Encoding as Augmentation: Towards Effective Educational Text
Classification [9.786833703453741]
本稿では,教育用テキスト分類における効果的な学習を支援する新しい検索手法CEAAを提案する。
主な貢献は次の通りである: 1) 質問応答データセットからの移動学習を活用し、2) 単純だが効果的なデータ拡張法を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:19:30Z) - Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。
本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。
予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文 参考訳(メタデータ) (2023-04-24T07:35:38Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z) - MultiMatch: Multi-task Learning for Semi-supervised Domain Generalization [55.06956781674986]
我々は、各ソースドメインにいくつかのラベル情報がある半教師付きドメイン一般化タスクの解決に頼っている。
我々は、MultiMatchを提案し、FixMatchをマルチタスク学習フレームワークに拡張し、SSDGのための高品質な擬似ラベルを生成する。
提案手法の有効性を検証し,いくつかのベンチマークDGデータセット上で既存の半教師付き手法とSSDG法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T14:44:33Z) - Prior Knowledge Guided Unsupervised Domain Adaptation [82.9977759320565]
本稿では,対象とするクラス分布に関する事前知識を利用できる知識誘導型非教師付きドメイン適応(KUDA)設定を提案する。
特に,対象領域におけるクラス分布に関する2種類の事前知識について考察する。
このような事前知識を用いて生成した擬似ラベルを精査する修正モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T18:41:36Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。