論文の概要: NewsEmbed: Modeling News through Pre-trained DocumentRepresentations
- arxiv url: http://arxiv.org/abs/2106.00590v1
- Date: Tue, 1 Jun 2021 15:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 16:50:50.487498
- Title: NewsEmbed: Modeling News through Pre-trained DocumentRepresentations
- Title(参考訳): NewsEmbed: 事前訓練されたドキュメント表現によるニュースのモデリング
- Authors: Jialu Liu, Tianqi Liu, Cong Yu
- Abstract要約: そこで本研究では,人間をほとんど監督せず,意味に関連のある新鮮文書とそのトピックラベルをマイニングする新しい手法を提案する。
提案手法は,何十億もの高品質な有機的学習例を提供し,自然に多言語環境に拡張可能であることを示す。
- 参考スコア(独自算出の注目度): 5.007237648361745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively modeling text-rich fresh content such as news articles at
document-level is a challenging problem. To ensure a content-based model
generalize well to a broad range of applications, it is critical to have a
training dataset that is large beyond the scale of human labels while achieving
desired quality. In this work, we address those two challenges by proposing a
novel approach to mine semantically-relevant fresh documents, and their topic
labels, with little human supervision. Meanwhile, we design a multitask model
called NewsEmbed that alternatively trains a contrastive learning with a
multi-label classification to derive a universal document encoder. We show that
the proposed approach can provide billions of high quality organic training
examples and can be naturally extended to multilingual setting where texts in
different languages are encoded in the same semantic space. We experimentally
demonstrate NewsEmbed's competitive performance across multiple natural
language understanding tasks, both supervised and unsupervised.
- Abstract(参考訳): 文書レベルでのニュース記事などのテキストリッチな新鮮なコンテンツを効果的にモデル化することは難しい問題である。
コンテンツベースモデルが広範囲のアプリケーションに適合するようにするためには、望ましい品質を達成しつつ、人間のラベルの規模を超えて大きなトレーニングデータセットを持つことが重要である。
本稿では,この2つの課題に対して,意味的に関係のある新文書とその話題ラベルを人間の監督をほとんど受けずにマイニングする新しい手法を提案する。
一方,マルチタスクモデルであるNewsEmbedを設計し,コントラスト学習をマルチラベル分類で訓練し,ユニバーサル文書エンコーダを導出する。
提案手法は,数十億の高品質な有機学習例を提供し,異なる言語のテキストが同じ意味空間にエンコードされるような多言語環境に自然に拡張できることを示す。
我々は,複数の自然言語理解タスクを対象としたNewsEmbedの競合性能を実験的に実証した。
関連論文リスト
- Boosting Short Text Classification with Multi-Source Information Exploration and Dual-Level Contrastive Learning [12.377363857246602]
短文分類のためのMI-DELIGHTという新しいモデルを提案する。
まず、スパーシリティの問題を軽減するために、マルチソース情報探索を行う。
次に,短いテキストの表現を学習するために,グラフ学習アプローチを採用する。
論文 参考訳(メタデータ) (2025-01-16T00:26:15Z) - Text-Guided Mixup Towards Long-Tailed Image Categorization [7.207351201912651]
多くの実世界のアプリケーションにおいて、トレーニングデータのためのクラスラベルの周波数分布は、長い尾の分布を示すことができる。
本稿では,事前学習したテキストエンコーダによって認識されるクラス間の意味的関係を利用した,テキスト誘導型ミックスアップ手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:37:43Z) - Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。