論文の概要: Bootstrapping Large-Scale Fine-Grained Contextual Advertising Classifier
from Wikipedia
- arxiv url: http://arxiv.org/abs/2102.06429v1
- Date: Fri, 12 Feb 2021 10:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 15:05:18.143532
- Title: Bootstrapping Large-Scale Fine-Grained Contextual Advertising Classifier
from Wikipedia
- Title(参考訳): ウィキペディアの大規模きめ細かいコンテキスト広告分類器のブートストラップ
- Authors: Yiping Jin, Vishakha Kadam, Dittaya Wanvarie
- Abstract要約: ウィキペディアのカテゴリグラフをタップして,大規模細粒テキスト分類の課題を解決する手法を提案する。
この方法は、手書きの文書や手書きのルールやキーワードを必要としないため、大規模な分類問題に最適です。
- 参考スコア(独自算出の注目度): 0.2062593640149624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual advertising provides advertisers with the opportunity to target
the context which is most relevant to their ads. However, its power cannot be
fully utilized unless we can target the page content using fine-grained
categories, e.g., "coupe" vs. "hatchback" instead of "automotive" vs. "sport".
The widely used advertising content taxonomy (IAB taxonomy) consists of 23
coarse-grained categories and 355 fine-grained categories. With the large
number of categories, it becomes very challenging either to collect training
documents to build a supervised classification model, or to compose
expert-written rules in a rule-based classification system. Besides, in
fine-grained classification, different categories often overlap or co-occur,
making it harder to classify accurately. In this work, we propose wiki2cat, a
method to tackle the problem of large-scaled fine-grained text classification
by tapping on Wikipedia category graph. The categories in IAB taxonomy are
first mapped to category nodes in the graph. Then the label is propagated
across the graph to obtain a list of labeled Wikipedia documents to induce text
classifiers. The method is ideal for large-scale classification problems since
it does not require any manually-labeled document or hand-curated rules or
keywords. The proposed method is benchmarked with various learning-based and
keyword-based baselines and yields competitive performance on both publicly
available datasets and a new dataset containing more than 300 fine-grained
categories.
- Abstract(参考訳): コンテキスト広告は、広告主に広告に最も関連するコンテキストをターゲットにする機会を提供します。
ただし、"automotive" と "sport" の代わりに "coupe" と "hatchback" といった細かいカテゴリを使ってページコンテンツをターゲットにしなければ、そのパワーは十分に利用できません。
広く使われている広告コンテンツ分類(IAB分類)は、23の粗粒度と355の細粒度からなる。
カテゴリが多ければ多いほど、教師付き分類モデルを構築するためのトレーニングドキュメントの収集や、ルールベースの分類システムにおける専門家によるルールの作成が極めて困難になる。
さらに細かな分類では、異なる分類が重なり合うか共起することが多く、正確な分類は困難である。
本研究では,ウィキペディアのカテゴリグラフをタップして,大規模細粒テキスト分類の課題に取り組む手法であるwiki2catを提案する。
IAB分類のカテゴリは、最初にグラフのカテゴリノードにマップされます。
その後、ラベルはグラフ全体に伝播し、テキスト分類器を誘導するラベル付きWikipedia文書のリストを取得します。
この方法は、手書きの文書や手書きのルールやキーワードを必要としないため、大規模な分類問題に最適です。
提案手法は,様々な学習ベースおよびキーワードベースラインでベンチマークし,公開データセットと300以上の細粒度カテゴリを含む新しいデータセットの競合性能を示す。
関連論文リスト
- Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - TagRec++: Hierarchical Label Aware Attention Network for Question
Categorization [0.3683202928838613]
オンライン学習システムは、階層的な性質の明確に定義された分類に従ってコンテンツを整理する。
階層ラベルへの入力を分類するタスクは通常、フラットな多クラス分類問題として扱われる。
各コンテンツに対して適切な階層ラベルを検索するために,タスクを高密度検索問題として定式化する。
論文 参考訳(メタデータ) (2022-08-10T05:08:37Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - TagRec: Automated Tagging of Questions with Hierarchical Learning
Taxonomy [0.0]
オンライン教育プラットフォームは、階層的な学習分類に基づく学術的な質問を組織する
本稿では,分類学と質問のセマンティック関連性を最適化する類似性に基づく検索タスクとして,問題を定式化する。
本研究では,本手法が未確認ラベルの扱いに役立ち,野生の分類学的タグ付けに有効であることを示す。
論文 参考訳(メタデータ) (2021-07-03T11:50:55Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - TF-CR: Weighting Embeddings for Text Classification [6.531659195805749]
本稿では,単語埋め込みの計算において,高頻度のカテゴリー排他語を重み付け可能な新しい重み付け方式TF-CRを提案する。
16の分類データセットの実験はTF-CRの有効性を示し、既存の重み付け方式よりもパフォーマンススコアが向上した。
論文 参考訳(メタデータ) (2020-12-11T19:23:28Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Joint Embedding of Words and Category Labels for Hierarchical
Multi-label Text Classification [4.2750700546937335]
階層的テキスト分類(HTC)は広く注目されており、幅広い応用の見通しがある。
本稿では,HTC の階層的微調整順序ニューロン LSTM (HFT-ONLSTM) に基づくテキストと親カテゴリの結合埋め込みを提案する。
論文 参考訳(メタデータ) (2020-04-06T11:06:08Z) - Description Based Text Classification with Reinforcement Learning [34.18824470728299]
本稿では,各カテゴリのラベルをカテゴリ記述に関連付ける,テキスト分類のための新しいフレームワークを提案する。
我々は、幅広いテキスト分類タスクにおいて、強いベースラインよりも顕著なパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2020-02-08T02:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。