論文の概要: Where It Really Matters: Few-Shot Environmental Conservation Media
Monitoring for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2402.11818v1
- Date: Mon, 19 Feb 2024 04:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:27:29.455394
- Title: Where It Really Matters: Few-Shot Environmental Conservation Media
Monitoring for Low-Resource Languages
- Title(参考訳): 少人数の環境保全メディアによる低リソース言語モニタリング
- Authors: Sameer Jain, Sedrick Scott Keh, Shova Chettri, Karun Dewan, Pablo
Izquierdo, Johanna Prussman, Pooja Shreshtha, Cesar Suarez, Zheyuan Ryan Shi,
Lei Li, Fei Fang
- Abstract要約: NewsSerowは、大言語モデル(LLM)を用いた要約、文脈内数ショット分類、自己回帰のパイプラインである。
世界自然基金(WWF)はネパールでメディア監視のためにNewsSerowを配備した。
- 参考スコア(独自算出の注目度): 28.439595687977132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environmental conservation organizations routinely monitor news content on
conservation in protected areas to maintain situational awareness of
developments that can have an environmental impact. Existing automated media
monitoring systems require large amounts of data labeled by domain experts,
which is only feasible at scale for high-resource languages like English.
However, such tools are most needed in the global south where news of interest
is mainly in local low-resource languages, and far fewer experts are available
to annotate datasets sustainably. In this paper, we propose NewsSerow, a method
to automatically recognize environmental conservation content in low-resource
languages. NewsSerow is a pipeline of summarization, in-context few-shot
classification, and self-reflection using large language models (LLMs). Using
at most 10 demonstration example news articles in Nepali, NewsSerow
significantly outperforms other few-shot methods and achieves comparable
performance with models fully fine-tuned using thousands of examples. The World
Wide Fund for Nature (WWF) has deployed NewsSerow for media monitoring in
Nepal, significantly reducing their operational burden, and ensuring that AI
tools for conservation actually reach the communities that need them the most.
NewsSerow has also been deployed for countries with other languages like
Colombia.
- Abstract(参考訳): 環境保護団体は、環境に影響を及ぼす可能性のある開発状況の認識を維持するため、保護区域の保護に関するニュースコンテンツを定期的に監視している。
既存の自動メディア監視システムは、ドメインの専門家によってラベル付けされた大量のデータを必要とする。
しかしながら、そのようなツールは、関心のニュースが主にローカルな低リソース言語にあるグローバルサウスでは最も必要であり、データセットに注釈を付ける専門家ははるかに少ない。
本稿では,低資源言語における環境保全コンテンツの自動認識手法であるnewsserowを提案する。
newsserowは、大言語モデル(llm)を用いた要約、文脈内少数ショット分類、自己回帰のパイプラインである。
ネパールの10以上のデモ的なニュース記事を使用することで、newsserowは他の少数の方法を大きく上回り、数千の例を使ってモデルと同等のパフォーマンスを達成している。
World Wide Fund for Nature(WWF)は、ネパールでメディア監視のためにNewsSerowをデプロイし、運用上の負担を大幅に削減し、保護のためのAIツールが、それらを最も必要とするコミュニティに実際に到達できるようにする。
NewsSerowはコロンビアなどの他国にも展開されている。
関連論文リスト
- Automating the Analysis of Public Saliency and Attitudes towards Biodiversity from Digital Media [0.5175667614430115]
野生生物に対する公衆の態度を測定することは、自然との関係に重要な洞察を与え、グローバル生物多様性フレームワークの目標に向けた進捗を監視するのに役立ちます。
我々は,現代の自然言語処理(NLP)ツールを活用することで,これらの課題を克服することを目指している。
本稿では,検索語生成の改善のための民生分類法を導入し,用語頻度-逆文書頻度ベクトルのコサイン類似性を利用して,シンジケートされた記事のフィルタリングを行う。
また、教師なし学習を用いて共通のトピックを明らかにする関連フィルタリングパイプラインを導入し、続いてオープンソースのLarge Language Model(LLM)を用いてトピックをニュース記事のタイトルに割り当てる。
論文 参考訳(メタデータ) (2024-05-02T08:28:25Z) - Exploring News Summarization and Enrichment in a Highly Resource-Scarce Indian Language: A Case Study of Mizo [7.393476206148905]
本研究では,三蔵ニュース記事の総合的な要約を生成するための簡易手法の有効性について検討する。
我々は,500件のミゾニュース記事とそれに対応する豊富な総論要約を公開している。
人的評価は,提案手法がミゾニュース記事の情報カバレッジを著しく向上させることを確認した。
論文 参考訳(メタデータ) (2024-04-25T17:23:04Z) - Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages [55.963648108438555]
大規模言語モデル(LLM)は、様々なドメインや言語で顕著な人間のような能力を示す。
我々は、デコーダのみとエンコーダ-デコーダアーキテクチャの両方を含むインドネシアのLLMのコレクションであるCendolを紹介する。
さまざまなタスクにまたがってCendolの有効性を強調し、20%の改善を実現し、その一般化能力を実証した。
論文 参考訳(メタデータ) (2024-04-09T09:04:30Z) - LITE: Modeling Environmental Ecosystems with Multimodal Large Language Models [25.047123247476016]
LITEは環境生態系モデリングのための大きな言語モデルである。
異なる環境変数を自然言語記述や線グラフ画像に変換することで統一する。
このステップでは、不完全な機能は、sparse Mixture-of-Expertsフレームワークによって説明される。
論文 参考訳(メタデータ) (2024-04-01T15:14:07Z) - SatBird: Bird Species Distribution Modeling with Remote Sensing and
Citizen Science Data [68.2366021016172]
本稿では,市民科学データベース eBird の観測データから得られたラベルを用いた,米国内の位置情報のサテライトデータセットである SatBird について述べる。
ケニアでは低データのレシエーションを表すデータセットも提供しています。
リモートセンシングタスクのためのSOTAモデルを含む、データセットのベースラインセットをベンチマークします。
論文 参考訳(メタデータ) (2023-11-02T02:00:27Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - NewsPanda: Media Monitoring for Timely Conservation Action [24.14112072061638]
NewsPandaは環境保全とインフラ構築に関連するオンライン記事を自動的に検出し分析するツールキットである。
2022年2月以来、イギリス、インド、ネパールのネイチャーチームのためのワールド・ワイド・ファンドによって配備されている。
現在、インドとネパールの8万のウェブサイトと1,074の保護施設を監視しており、毎週30時間以上の人的努力を節約している。
論文 参考訳(メタデータ) (2023-04-30T07:15:29Z) - Ensuring the Inclusive Use of Natural Language Processing in the Global
Response to COVID-19 [58.720142291102135]
低リソース言語を網羅することで、現在のNLPアプローチと将来のNLPアプローチをより包括的に行う方法について議論する。
我々は,NLPの正の社会的影響を最大化することに関心のある研究者のために,いくつかの今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-08-11T12:54:26Z) - Online Monitoring of Global Attitudes Towards Wildlife [0.6767885381740952]
野生生物の認識の世界的な傾向を監視するための体系的な取り組みは存在しない。
従来の報道がオンライン化されている今、インターネットは種に対する世界的態度を監視する強力な手段を提供する。
我々は,GDELT(Global Database of Events, Language, and Tone)を用いて,グローバルニュースメディアをスキャンする手法を開発した。
教師付き機械学習技術を適用して、無関係な記事をフィルタリングし、7つの分類群に対して継続的に更新されたグローバルなニュースカバレッジデータセットを作成する。
論文 参考訳(メタデータ) (2020-07-22T15:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。