論文の概要: Retrieving Floods without Floodlights: Topic Models as Binary Classifiers for Extreme Climate Events in German News
- arxiv url: http://arxiv.org/abs/2605.03450v1
- Date: Tue, 05 May 2026 07:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.820112
- Title: Retrieving Floods without Floodlights: Topic Models as Binary Classifiers for Extreme Climate Events in German News
- Title(参考訳): 洪水のない洪水の回収--ドイツニュースにおける極端気候事象の2値分類器としてのトピックモデル
- Authors: Brielen Madureira, Mariana Madruga de Brito, Andreas Niekler,
- Abstract要約: われわれは、ドイツのメディアにおける7種類の極端な気候イベントに関する関連ニュースの検索を、トピックモデルを用いて改善している。
提案手法は,トピックモデルにより推定された後続分布に依存し,関連する文書を選択する。
我々は,NLPタスクにおいて,気候事象を単一カテゴリとして考えることに反対する,ハザード依存的な結果を示す。
- 参考スコア(独自算出の注目度): 5.033722555649178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In studies of media coverage of extreme climate events, NLP methods have become indispensable for identifying relevant texts in large news databases. Still, enough annotated data to train accurate deep learning-based classifiers from scratch is often not available. Topic Models have the advantage of being both unsupervised and interpretable, but are typically used only for exploratory analysis or data characterisation. In this study, we investigate how to employ Topic Models as binary classifiers for refining the retrieval of relevant news about seven types of extreme climate events in the German media. Our method relies on the posterior distributions estimated by Topic Models to select relevant documents, without modifying their training procedure. Using an annotated sample to guide the evaluation, we show that the probabilities assigned to keywords used to query news databases can also be informative for selecting relevant topics and improve sample precision. We compare our results to a fine-tuned text embedding classifier and an open-weight LLM, discussing observed trade-offs, e.g. the LLM's lowest precision. Moreover, we show that results are hazard-dependent, which speaks against considering climate events as a single category in NLP tasks.
- Abstract(参考訳): 極度の気候事象のメディア報道研究において、NLP法は大規模ニュースデータベースで関連するテキストを特定するのに欠かせないものとなっている。
それでも、正確なディープラーニングベースの分類器をスクラッチから訓練するのに十分な注釈付きデータは入手できないことが多い。
トピックモデルは教師なしと解釈可能な両方の利点があるが、典型的には探索分析やデータの特徴付けにのみ使用される。
本研究では,ドイツのメディアにおいて,7種類の極寒事象に関する関連ニュースの検索を精査するために,トピックモデルをバイナリ分類器として利用する方法について検討した。
提案手法は,学習手順を変更することなく,トピックモデルが推定した後部分布に基づいて関連文書を選択する。
注釈付きサンプルを用いて、ニュースデータベースに問い合わせるキーワードに割り当てられた確率は、関連するトピックの選択やサンプルの精度の向上に役立てることができることを示す。
実験の結果を,細調整のテキスト埋め込み分類器とオープンウェイト LLM と比較し,観測されたトレードオフ,例えば LLM の最小精度について議論した。
さらに,NLPタスクにおいて,気候事象を単一カテゴリとして考えることに反対する,ハザードに依存した結果が示された。
関連論文リスト
- Selecting Between BERT and GPT for Text Classification in Political Science Research [4.487884986288122]
低データシナリオにおけるBERTモデルとGPTモデルの有効性を評価する。
パフォーマンス、使いやすさ、コストの観点から、これらのアプローチを比較して結論付けます。
論文 参考訳(メタデータ) (2024-11-07T07:29:39Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。