論文の概要: Automating the Analysis of Public Saliency and Attitudes towards Biodiversity from Digital Media
- arxiv url: http://arxiv.org/abs/2405.01610v1
- Date: Thu, 2 May 2024 08:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 15:04:28.161390
- Title: Automating the Analysis of Public Saliency and Attitudes towards Biodiversity from Digital Media
- Title(参考訳): デジタルメディアによる公衆衛生分析と生物多様性に対する態度の自動化
- Authors: Noah Giebink, Amrita Gupta, Diogo Verìssimo, Charlotte H. Chang, Tony Chang, Angela Brennan, Brett Dickson, Alex Bowmer, Jonathan Baillie,
- Abstract要約: 野生生物に対する公衆の態度を測定することは、自然との関係に重要な洞察を与え、グローバル生物多様性フレームワークの目標に向けた進捗を監視するのに役立ちます。
我々は,現代の自然言語処理(NLP)ツールを活用することで,これらの課題を克服することを目指している。
本稿では,検索語生成の改善のための民生分類法を導入し,用語頻度-逆文書頻度ベクトルのコサイン類似性を利用して,シンジケートされた記事のフィルタリングを行う。
また、教師なし学習を用いて共通のトピックを明らかにする関連フィルタリングパイプラインを導入し、続いてオープンソースのLarge Language Model(LLM)を用いてトピックをニュース記事のタイトルに割り当てる。
- 参考スコア(独自算出の注目度): 0.5175667614430115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring public attitudes toward wildlife provides crucial insights into our relationship with nature and helps monitor progress toward Global Biodiversity Framework targets. Yet, conducting such assessments at a global scale is challenging. Manually curating search terms for querying news and social media is tedious, costly, and can lead to biased results. Raw news and social media data returned from queries are often cluttered with irrelevant content and syndicated articles. We aim to overcome these challenges by leveraging modern Natural Language Processing (NLP) tools. We introduce a folk taxonomy approach for improved search term generation and employ cosine similarity on Term Frequency-Inverse Document Frequency vectors to filter syndicated articles. We also introduce an extensible relevance filtering pipeline which uses unsupervised learning to reveal common topics, followed by an open-source zero-shot Large Language Model (LLM) to assign topics to news article titles, which are then used to assign relevance. Finally, we conduct sentiment, topic, and volume analyses on resulting data. We illustrate our methodology with a case study of news and X (formerly Twitter) data before and during the COVID-19 pandemic for various mammal taxa, including bats, pangolins, elephants, and gorillas. During the data collection period, up to 62% of articles including keywords pertaining to bats were deemed irrelevant to biodiversity, underscoring the importance of relevance filtering. At the pandemic's onset, we observed increased volume and a significant sentiment shift toward horseshoe bats, which were implicated in the pandemic, but not for other focal taxa. The proposed methods open the door to conservation practitioners applying modern and emerging NLP tools, including LLMs "out of the box," to analyze public perceptions of biodiversity during current events or campaigns.
- Abstract(参考訳): 野生生物に対する公衆の態度を測定することは、自然との関係に重要な洞察を与え、グローバル生物多様性フレームワークの目標に向けた進捗を監視するのに役立ちます。
しかし、このような評価を世界規模で行うことは困難である。
ニュースやソーシャルメディアを検索するための検索用語を手作業でキュレートするのは面倒でコストがかかり、バイアスのある結果につながる可能性がある。
クエリから返される生ニュースやソーシャルメディアデータは、無関係なコンテンツやシンジケートされた記事で混乱することが多い。
我々は,現代の自然言語処理(NLP)ツールを活用することで,これらの課題を克服することを目指している。
本稿では,検索語生成の改善のための民生分類法を導入し,用語頻度-逆文書頻度ベクトルのコサイン類似性を利用して,シンジケートされた記事のフィルタリングを行う。
また、教師なし学習を用いて共通のトピックを明らかにする拡張可能な関連性フィルタリングパイプラインを導入し、その後、オープンソースのゼロショット大言語モデル(LLM)を用いてニュース記事のタイトルにトピックを割り当て、関連性を割り当てる。
最後に、結果データに対する感情、話題、ボリューム分析を行う。
我々は、コウモリ、パンゴリン、ゾウ、ゴリラなど、さまざまな哺乳類の分類群について、新型コロナウイルスパンデミック前後のニュースとX(旧Twitter)データをケーススタディで分析した。
データ収集期間中、コウモリに関するキーワードを含む記事の62%は生物多様性とは無関係と見なされ、関連フィルタリングの重要性が強調された。
パンデミックの開始時に、パンデミックに関係していたコウモリに対する体積増加と大きな感情変化が見られたが、他の焦点分類には及ばなかった。
提案手法は, 生物多様性の認知度を明らかにするため, 近代的, 新興のNLPツールを応用した保護実践者への扉を開くものである。
関連論文リスト
- Transit Pulse: Utilizing Social Media as a Source for Customer Feedback and Information Extraction with Large Language Model [12.6020349733674]
本稿では,交通関連情報を抽出し,分析するための新しい手法を提案する。
提案手法では,Large Language Models (LLM) ,特にLlama 3を合理化解析に用いている。
以上の結果から,公共交通機関におけるソーシャルメディアデータ分析を変革するLLMの可能性が示された。
論文 参考訳(メタデータ) (2024-10-19T07:08:40Z) - Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research [2.1728621449144763]
文献分析は、都市科学における研究動向、スコープ、影響を理解するために不可欠である。
キーワード検索に依存する伝統的な手法は、記事のタイトルやキーワードに明記されていない価値ある洞察を明らかにするのに失敗することが多い。
我々は、生成AIモデル、特にトランスフォーマーとレトリーバル拡張生成(RAG)を活用して、バイオロメトリ分析の自動化と強化を行う。
論文 参考訳(メタデータ) (2024-10-08T05:13:27Z) - Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News
Detection [50.07850264495737]
プロンプト・アンド・アライン(Prompt-and-Align、P&A)は、数発のフェイクニュース検出のための新しいプロンプトベースのパラダイムである。
我々はP&Aが、数発のフェイクニュース検出性能をかなりのマージンで新たな最先端に設定していることを示す。
論文 参考訳(メタデータ) (2023-09-28T13:19:43Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - An NLP approach to quantify dynamic salience of predefined topics in a
text corpus [0.0]
我々は自然言語処理技術を用いて、テキストの大規模なコーパスを通して、ある定義済みの関心トピックの集合が時間とともにどのように変化するかの定量化を行う。
事前定義されたトピックが与えられたら、それらのトピックにマップされ、通常のベースラインから逸脱する利用パターンを持つ、用語の集合(n-gram)を識別してランク付けできる。
論文 参考訳(メタデータ) (2021-08-16T21:00:06Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Topic Modeling and Progression of American Digital News Media During the
Onset of the COVID-19 Pandemic [2.798697306330988]
現在、世界は深刻な世界的なパンデミックの真っ最中にあり、人々の生活のあらゆる側面に影響を与えている。
パンデミックの影響で、米国では新型コロナウイルス関連のデジタルメディア記事が大量に掲載されている。
本研究では, 各種デジタル物品を自動抽出して, 管理可能な情報に抽出する自然言語処理パイプラインを開発した。
論文 参考訳(メタデータ) (2021-05-25T14:27:47Z) - HOT-VAE: Learning High-Order Label Correlation for Multi-Label
Classification via Attention-Based Variational Autoencoders [8.376771467488458]
High-order Tie-in Variational Autoencoder (HOT-VAE) 形式ごとの適応的高階ラベル相関学習。
本モデルが鳥の分布データセット上で既存の最先端のアプローチを上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-03-09T04:30:28Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。