論文の概要: Natural language processing for achieving sustainable development: the
case of neural labelling to enhance community profiling
- arxiv url: http://arxiv.org/abs/2004.12935v2
- Date: Tue, 17 Nov 2020 18:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:20:32.603068
- Title: Natural language processing for achieving sustainable development: the
case of neural labelling to enhance community profiling
- Title(参考訳): 持続可能な開発を実現するための自然言語処理 : コミュニティプロファイリングを強化するニューラルラベリングの事例
- Authors: Costanza Conforti, Stephanie Hirmer, David Morgan, Marco Basaldella,
Yau Ben Or
- Abstract要約: 本研究は,NLPによるプロジェクトの持続可能性向上に寄与する可能性を示す。
我々は、先進国と対照的に、顕著なデータギャップが存在する発展途上国におけるコミュニティプロファイリングの事例に焦点を当てる。
極端に多クラスなマルチラベル分類問題である自動PV分類の課題を提案する。
- 参考スコア(独自算出の注目度): 2.6734009991058794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been an increasing interest in the application of
Artificial Intelligence - and especially Machine Learning - to the field of
Sustainable Development (SD). However, until now, NLP has not been applied in
this context. In this research paper, we show the high potential of NLP
applications to enhance the sustainability of projects. In particular, we focus
on the case of community profiling in developing countries, where, in contrast
to the developed world, a notable data gap exists. In this context, NLP could
help to address the cost and time barrier of structuring qualitative data that
prohibits its widespread use and associated benefits. We propose the new task
of Automatic UPV classification, which is an extreme multi-class multi-label
classification problem. We release Stories2Insights, an expert-annotated
dataset, provide a detailed corpus analysis, and implement a number of strong
neural baselines to address the task. Experimental results show that the
problem is challenging, and leave plenty of room for future research at the
intersection of NLP and SD.
- Abstract(参考訳): 近年、人工知能(特に機械学習)の持続可能な開発(sd)分野への応用への関心が高まっている。
しかし、これまでのところ、NLPはこの文脈では適用されていない。
本稿では,プロジェクトの持続可能性を高めるためのnlpアプリケーションの可能性について述べる。
特に,発展途上国におけるコミュニティ・プロファイリングの事例に注目し,先進国とは対照的に,注目すべきデータギャップが存在する。
この文脈では、NLPは、その広範な使用と関連する利益を禁止している定性的データを構造化するコストと時間の障壁に対処するのに役立つ。
本稿では,超多クラス多ラベル分類問題である自動PV分類の課題を提案する。
専門家が注釈付けしたデータセットであるStories2Insightsをリリースし、詳細なコーパス分析を提供し、タスクに対処する強力なニューラルネットワークを実装しています。
実験結果から,NLPとSDの交差点で今後の研究に十分な余地が残されていることが明らかとなった。
関連論文リスト
- Self-Supervised Learning for Text Recognition: A Critical Survey [11.599791967838481]
テキスト認識(英語: Text Recognition, TR)とは、画像からテキスト情報を取得することに焦点を当てた研究領域である。
ディープニューラルネットワーク(DNN)のトレーニングにラベルなしデータの大規模なデータセットを活用することで、自己監視学習(SSL)が注目されている。
本稿では,TR分野におけるSSLの利用を集約し,その技術の現状を概観する。
論文 参考訳(メタデータ) (2024-07-29T11:11:17Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Deep Learning Approaches for Improving Question Answering Systems in
Hepatocellular Carcinoma Research [0.0]
近年,自然言語処理(NLP)の進歩は,ディープラーニング技術によって加速されている。
膨大な量のデータに基づいてトレーニングされたBERTとGPT-3は、言語理解と生成に革命をもたらした。
本稿では,大規模モデルベースNLPの現状と今後の展望について述べる。
論文 参考訳(メタデータ) (2024-02-25T09:32:17Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Lessons Learned from a Citizen Science Project for Natural Language
Processing [53.48988266271858]
市民科学はクラウドソーシングの代替であり、NLPの文脈では比較的研究されていない。
我々は、既存のクラウドソースデータセットの一部を注釈付けすることで、NLPの市民科学における様々なボランティアグループへの参加について探索的研究を行う。
この結果から,高品質なアノテーションが得られ,モチベーションの高いボランティアを惹きつけるだけでなく,スケーラビリティや時間的関与,法的・倫理的問題といった要因も考慮する必要があることが示唆された。
論文 参考訳(メタデータ) (2023-04-25T14:08:53Z) - Robust Natural Language Processing: Recent Advances, Challenges, and
Future Directions [4.409836695738517]
文献を様々な次元にわたって体系的に要約することで,NLPロバストネス研究の構造化概要を述べる。
次に、テクニック、メトリクス、埋め込み、ベンチマークなど、堅牢性のさまざまな側面を深く掘り下げます。
論文 参考訳(メタデータ) (2022-01-03T17:17:11Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。