論文の概要: Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data
- arxiv url: http://arxiv.org/abs/2407.16516v1
- Date: Tue, 23 Jul 2024 14:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:55:42.966682
- Title: Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data
- Title(参考訳): ドイツ語Webデータのトピック分類のための文脈内学習と微調整の評価
- Authors: Julian Schelb, Roberto Ulloa, Andreas Spitz,
- Abstract要約: トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
- 参考スコア(独自算出の注目度): 3.2771631221674333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers in the political and social sciences often rely on classification models to analyze trends in information consumption by examining browsing histories of millions of webpages. Automated scalable methods are necessary due to the impracticality of manual labeling. In this paper, we model the detection of topic-related content as a binary classification task and compare the accuracy of fine-tuned pre-trained encoder models against in-context learning strategies. Using only a few hundred annotated data points per topic, we detect content related to three German policies in a database of scraped webpages. We compare multilingual and monolingual models, as well as zero and few-shot approaches, and investigate the impact of negative sampling strategies and the combination of URL & content-based features. Our results show that a small sample of annotated data is sufficient to train an effective classifier. Fine-tuning encoder-based models yields better results than in-context learning. Classifiers using both URL & content-based features perform best, while using URLs alone provides adequate results when content is unavailable.
- Abstract(参考訳): 政治・社会科学の研究者はしばしば、数百万のWebページの閲覧履歴を調べて情報消費の傾向を分析するために分類モデルに頼っている。
手動ラベリングの非現実性のため、スケーラブルな自動手法が必要である。
本稿では、トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化し、微調整済みエンコーダモデルの精度をコンテキスト内学習戦略と比較する。
トピックごとの注釈付きデータポイントはわずか数百で、スクラップされたWebページのデータベースでドイツの3つのポリシーに関連するコンテンツを検出する。
複数言語モデルと単言語モデル,ゼロと少数ショットのアプローチを比較し,負のサンプリング戦略とURLとコンテンツベースの機能の組み合わせの影響について検討する。
その結果,注釈付きデータの小さなサンプルは有効な分類器を訓練するのに十分であることがわかった。
微調整エンコーダベースのモデルでは、文脈内学習よりも優れた結果が得られる。
URLとコンテンツベースの両方の機能を使用する分類器は、コンテンツが利用できない場合には、URLのみを使用すると適切な結果が得られる。
関連論文リスト
- Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Recognition and Processing of NATOM [0.0]
本稿では,民間航空分野におけるNOTAM(Notice to Airmen)データの処理方法について述べる。
NOTAMのオリジナルのデータには、中国語と英語の混合があり、構造は貧弱です。
グローブワードベクターメソッドを使用して、カスタムマッピング語彙を使用するデータを表現する。
論文 参考訳(メタデータ) (2021-04-29T10:12:00Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。