論文の概要: Cross Encoding as Augmentation: Towards Effective Educational Text
Classification
- arxiv url: http://arxiv.org/abs/2305.18977v1
- Date: Tue, 30 May 2023 12:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:33:26.178548
- Title: Cross Encoding as Augmentation: Towards Effective Educational Text
Classification
- Title(参考訳): 増補としてのクロスエンコーディング : 効果的な教育用テキスト分類を目指して
- Authors: Hyun Seung Lee, Seungtaek Choi, Yunsung Lee, Hyeongdon Moon, Shinhyeok
Oh, Myeongho Jeong, Hyojun Go, Christian Wallraven
- Abstract要約: 本稿では,教育用テキスト分類における効果的な学習を支援する新しい検索手法CEAAを提案する。
主な貢献は次の通りである: 1) 質問応答データセットからの移動学習を活用し、2) 単純だが効果的なデータ拡張法を提案する。
- 参考スコア(独自算出の注目度): 9.786833703453741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text classification in education, usually called auto-tagging, is the
automated process of assigning relevant tags to educational content, such as
questions and textbooks. However, auto-tagging suffers from a data scarcity
problem, which stems from two major challenges: 1) it possesses a large tag
space and 2) it is multi-label. Though a retrieval approach is reportedly good
at low-resource scenarios, there have been fewer efforts to directly address
the data scarcity problem. To mitigate these issues, here we propose a novel
retrieval approach CEAA that provides effective learning in educational text
classification. Our main contributions are as follows: 1) we leverage transfer
learning from question-answering datasets, and 2) we propose a simple but
effective data augmentation method introducing cross-encoder style texts to a
bi-encoder architecture for more efficient inference. An extensive set of
experiments shows that our proposed method is effective in multi-label
scenarios and low-resource tags compared to state-of-the-art models.
- Abstract(参考訳): 教育におけるテキスト分類は、通常オートタグと呼ばれるが、質問や教科書などの教育コンテンツに関連タグを割り当てる自動化プロセスである。
しかし、自動タグ付けはデータ不足の問題に悩まされている。
1)大きなタグスペースを持ち、
2)マルチラベルである。
検索手法は低リソースのシナリオに適していると言われているが、データ不足問題に直接対処する取り組みは少ない。
この問題を軽減するため,本研究では,教育用テキスト分類における効果的な学習を提供する新しい検索手法ceaaを提案する。
主な貢献は以下の通りである。
1)質問応答データセットから転送学習を利用する。
2) より効率的な推論のために,クロスエンコーダスタイルのテキストをバイエンコーダアーキテクチャに導入する,単純だが効果的なデータ拡張手法を提案する。
提案手法は,最先端モデルと比較して,マルチラベルシナリオや低リソースタグに有効であることを示す。
関連論文リスト
- Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - Task-Specific Embeddings for Ante-Hoc Explainable Text Classification [6.671252951387647]
テキストのタスク固有の埋め込みを学習する学習目標を提案する。
提案する目的は,同一のクラスラベルを共有するすべてのテキストが近接しているように埋め込みを学習することである。
本研究は, 総合的な分類精度において, アンテホックな説明可能性と漸進的な学習の利点が無コストで得られることを示す広範囲な実験である。
論文 参考訳(メタデータ) (2022-11-30T19:56:25Z) - New Intent Discovery with Pre-training and Contrastive Learning [21.25371293641141]
新しい意図発見は、ユーザ発話から新しい意図カテゴリーを明らかにして、サポート対象クラスのセットを拡張することを目的としている。
既存のアプローチは通常、大量のラベル付き発話に依存する。
本稿では,クラスタリングのためのラベルなしデータにおける自己超越的信号を活用するために,新たなコントラスト損失を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:07:25Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。