論文の概要: Text2Topic: Multi-Label Text Classification System for Efficient Topic
Detection in User Generated Content with Zero-Shot Capabilities
- arxiv url: http://arxiv.org/abs/2310.14817v1
- Date: Mon, 23 Oct 2023 11:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:40:31.964651
- Title: Text2Topic: Multi-Label Text Classification System for Efficient Topic
Detection in User Generated Content with Zero-Shot Capabilities
- Title(参考訳): Text2Topic: ゼロショット機能付きユーザ生成コンテンツの効率的なトピック検出のためのマルチラベルテキスト分類システム
- Authors: Fengjun Wang, Moran Beladev, Ofri Kleinfeld, Elina Frayerman, Tal
Shachar, Eran Fainman, Karen Lastmann Assaraf, Sarai Mizrachi, Benjamin Wang
- Abstract要約: マルチラベル分類性能の高いText to Topic(Text2Topic)を提案する。
Text2Topicはゼロショット予測をサポートし、ドメイン固有のテキスト埋め込みを生成し、プロダクションスケールのバッチ推論を可能にする。
このモデルは現実世界のストリーム処理プラットフォームにデプロイされ、92.9%のマイクロmAPで他のモデルより優れている。
- 参考スコア(独自算出の注目度): 2.7311827519141363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-label text classification is a critical task in the industry. It helps
to extract structured information from large amount of textual data. We propose
Text to Topic (Text2Topic), which achieves high multi-label classification
performance by employing a Bi-Encoder Transformer architecture that utilizes
concatenation, subtraction, and multiplication of embeddings on both text and
topic. Text2Topic also supports zero-shot predictions, produces domain-specific
text embeddings, and enables production-scale batch-inference with high
throughput. The final model achieves accurate and comprehensive results
compared to state-of-the-art baselines, including large language models (LLMs).
In this study, a total of 239 topics are defined, and around 1.6 million
text-topic pairs annotations (in which 200K are positive) are collected on
approximately 120K texts from 3 main data sources on Booking.com. The data is
collected with optimized smart sampling and partial labeling. The final
Text2Topic model is deployed on a real-world stream processing platform, and it
outperforms other models with 92.9% micro mAP, as well as a 75.8% macro mAP
score. We summarize the modeling choices which are extensively tested through
ablation studies, and share detailed in-production decision-making steps.
- Abstract(参考訳): マルチラベルテキスト分類は業界にとって重要な課題である。
大量のテキストデータから構造化情報を抽出するのに役立つ。
本稿では,テキストとトピックの両方への埋め込みの連結,減算,乗算を行うバイエンコーダトランスアーキテクチャを用いて,マルチラベル分類性能の高いtext to topic(text2topic)を提案する。
text2topicはゼロショット予測をサポートし、ドメイン固有のテキスト埋め込みを生成し、スループットの高いプロダクションスケールのバッチ参照を可能にする。
最終モデルは、大規模言語モデル(LLM)を含む最先端のベースラインと比較して正確で包括的な結果が得られる。
本研究では,約239のトピックが定義され,Booking.comの3つの主要なデータソースから約120Kテキストに対して約1.6万のテキストトピックペアアノテーション(200Kは正)が収集される。
データは最適化されたスマートサンプリングと部分ラベリングによって収集される。
最終的なText2Topicモデルは、現実世界のストリーム処理プラットフォームにデプロイされ、92.9%のマイクロmAPと75.8%のマクロmAPスコアで他のモデルより優れている。
我々は、アブレーション研究を通じて広範囲にテストされるモデリング選択を要約し、製品内決定手順の詳細を共有する。
関連論文リスト
- Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts [62.55349777609194]
我々は、SATと呼ばれるテキストプロンプトによって駆動される放射線学的スキャンにおいて、任意のセグメンテーションを可能にするモデルを構築することを目指している。
トレーニングのために、最大かつ最も包括的なセグメンテーションデータセットを構築します。
我々はSAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)をトレーニングし、データセット/サブセット毎にトレーニングされた72の専門家nnU-Netに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-28T18:16:00Z) - Text Summarization Using Large Language Models: A Comparative Study of
MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models [0.0]
Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。
本稿では,MPT-7b-instruct,falcon-7b-instruct,OpenAI ChatGPT text-davinci-003 モデルなど,多種多様な LLM を用いたテキスト要約について検討する。
論文 参考訳(メタデータ) (2023-10-16T14:33:02Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Controlled Text Reduction [15.102190738450092]
textitControlled Text Reduction をスタンドアロンタスクとして形式化する。
モデルでは、対象情報すべてと対象情報のみを含む一貫性のあるテキストを生成する必要がある。
論文 参考訳(メタデータ) (2022-10-24T17:59:03Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - MARMOT: A Deep Learning Framework for Constructing Multimodal
Representations for Vision-and-Language Tasks [0.0]
本稿では、モーダル変換(MARMOT)を用いた多モーダル表現と呼ばれる新しいヴィジュアル・アンド・ランゲージ・フレームワークを提案する。
MARMOTは、2016年アメリカ合衆国大統領選挙における選挙事件を報告しているツイートのマルチラベル分類において、20のカテゴリの19のアンサンブルテキストのみの分類器を上回っている。
論文 参考訳(メタデータ) (2021-09-23T17:48:48Z) - Learning Statistical Texture for Semantic Segmentation [53.7443670431132]
セマンティックセグメンテーションのための新しい統計テクスチャ学習ネットワーク(STLNet)を提案する。
STLNetは、初めて低レベルの情報の分布を分析し、それらをタスクに効率的に活用する。
1)テクスチャ関連情報を捕捉し,テクスチャの詳細を強化するためのテクスチャエンハンスモジュール(TEM),(2)ピラミッドテクスチャ特徴抽出モジュール(PTFEM)の2つのモジュールを導入し,複数のスケールから統計的テクスチャ特徴を効果的に抽出する。
論文 参考訳(メタデータ) (2021-03-06T15:05:35Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。