論文の概要: Where It Really Matters: Few-Shot Environmental Conservation Media
Monitoring for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2402.11818v1
- Date: Mon, 19 Feb 2024 04:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:27:29.455394
- Title: Where It Really Matters: Few-Shot Environmental Conservation Media
Monitoring for Low-Resource Languages
- Title(参考訳): 少人数の環境保全メディアによる低リソース言語モニタリング
- Authors: Sameer Jain, Sedrick Scott Keh, Shova Chettri, Karun Dewan, Pablo
Izquierdo, Johanna Prussman, Pooja Shreshtha, Cesar Suarez, Zheyuan Ryan Shi,
Lei Li, Fei Fang
- Abstract要約: NewsSerowは、大言語モデル(LLM)を用いた要約、文脈内数ショット分類、自己回帰のパイプラインである。
世界自然基金(WWF)はネパールでメディア監視のためにNewsSerowを配備した。
- 参考スコア(独自算出の注目度): 28.439595687977132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environmental conservation organizations routinely monitor news content on
conservation in protected areas to maintain situational awareness of
developments that can have an environmental impact. Existing automated media
monitoring systems require large amounts of data labeled by domain experts,
which is only feasible at scale for high-resource languages like English.
However, such tools are most needed in the global south where news of interest
is mainly in local low-resource languages, and far fewer experts are available
to annotate datasets sustainably. In this paper, we propose NewsSerow, a method
to automatically recognize environmental conservation content in low-resource
languages. NewsSerow is a pipeline of summarization, in-context few-shot
classification, and self-reflection using large language models (LLMs). Using
at most 10 demonstration example news articles in Nepali, NewsSerow
significantly outperforms other few-shot methods and achieves comparable
performance with models fully fine-tuned using thousands of examples. The World
Wide Fund for Nature (WWF) has deployed NewsSerow for media monitoring in
Nepal, significantly reducing their operational burden, and ensuring that AI
tools for conservation actually reach the communities that need them the most.
NewsSerow has also been deployed for countries with other languages like
Colombia.
- Abstract(参考訳): 環境保護団体は、環境に影響を及ぼす可能性のある開発状況の認識を維持するため、保護区域の保護に関するニュースコンテンツを定期的に監視している。
既存の自動メディア監視システムは、ドメインの専門家によってラベル付けされた大量のデータを必要とする。
しかしながら、そのようなツールは、関心のニュースが主にローカルな低リソース言語にあるグローバルサウスでは最も必要であり、データセットに注釈を付ける専門家ははるかに少ない。
本稿では,低資源言語における環境保全コンテンツの自動認識手法であるnewsserowを提案する。
newsserowは、大言語モデル(llm)を用いた要約、文脈内少数ショット分類、自己回帰のパイプラインである。
ネパールの10以上のデモ的なニュース記事を使用することで、newsserowは他の少数の方法を大きく上回り、数千の例を使ってモデルと同等のパフォーマンスを達成している。
World Wide Fund for Nature(WWF)は、ネパールでメディア監視のためにNewsSerowをデプロイし、運用上の負担を大幅に削減し、保護のためのAIツールが、それらを最も必要とするコミュニティに実際に到達できるようにする。
NewsSerowはコロンビアなどの他国にも展開されている。
関連論文リスト
- LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Automating the Analysis of Public Saliency and Attitudes towards Biodiversity from Digital Media [0.5175667614430115]
野生生物に対する公衆の態度を測定することは、自然との関係に重要な洞察を与え、グローバル生物多様性フレームワークの目標に向けた進捗を監視するのに役立ちます。
我々は,現代の自然言語処理(NLP)ツールを活用することで,これらの課題を克服することを目指している。
本稿では,検索語生成の改善のための民生分類法を導入し,用語頻度-逆文書頻度ベクトルのコサイン類似性を利用して,シンジケートされた記事のフィルタリングを行う。
また、教師なし学習を用いて共通のトピックを明らかにする関連フィルタリングパイプラインを導入し、続いてオープンソースのLarge Language Model(LLM)を用いてトピックをニュース記事のタイトルに割り当てる。
論文 参考訳(メタデータ) (2024-05-02T08:28:25Z) - Exploring News Summarization and Enrichment in a Highly Resource-Scarce Indian Language: A Case Study of Mizo [7.393476206148905]
本研究では,三蔵ニュース記事の総合的な要約を生成するための簡易手法の有効性について検討する。
我々は,500件のミゾニュース記事とそれに対応する豊富な総論要約を公開している。
人的評価は,提案手法がミゾニュース記事の情報カバレッジを著しく向上させることを確認した。
論文 参考訳(メタデータ) (2024-04-25T17:23:04Z) - Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages [55.963648108438555]
大規模言語モデル(LLM)は、様々なドメインや言語で顕著な人間のような能力を示す。
我々は、デコーダのみとエンコーダ-デコーダアーキテクチャの両方を含むインドネシアのLLMのコレクションであるCendolを紹介する。
さまざまなタスクにまたがってCendolの有効性を強調し、20%の改善を実現し、その一般化能力を実証した。
論文 参考訳(メタデータ) (2024-04-09T09:04:30Z) - LITE: Modeling Environmental Ecosystems with Multimodal Large Language Models [25.047123247476016]
LITEは環境生態系モデリングのための大きな言語モデルである。
異なる環境変数を自然言語記述や線グラフ画像に変換することで統一する。
このステップでは、不完全な機能は、sparse Mixture-of-Expertsフレームワークによって説明される。
論文 参考訳(メタデータ) (2024-04-01T15:14:07Z) - SatBird: Bird Species Distribution Modeling with Remote Sensing and
Citizen Science Data [68.2366021016172]
本稿では,市民科学データベース eBird の観測データから得られたラベルを用いた,米国内の位置情報のサテライトデータセットである SatBird について述べる。
ケニアでは低データのレシエーションを表すデータセットも提供しています。
リモートセンシングタスクのためのSOTAモデルを含む、データセットのベースラインセットをベンチマークします。
論文 参考訳(メタデータ) (2023-11-02T02:00:27Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NewsPanda: Media Monitoring for Timely Conservation Action [24.14112072061638]
NewsPandaは環境保全とインフラ構築に関連するオンライン記事を自動的に検出し分析するツールキットである。
2022年2月以来、イギリス、インド、ネパールのネイチャーチームのためのワールド・ワイド・ファンドによって配備されている。
現在、インドとネパールの8万のウェブサイトと1,074の保護施設を監視しており、毎週30時間以上の人的努力を節約している。
論文 参考訳(メタデータ) (2023-04-30T07:15:29Z) - Ensuring the Inclusive Use of Natural Language Processing in the Global
Response to COVID-19 [58.720142291102135]
低リソース言語を網羅することで、現在のNLPアプローチと将来のNLPアプローチをより包括的に行う方法について議論する。
我々は,NLPの正の社会的影響を最大化することに関心のある研究者のために,いくつかの今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-08-11T12:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。