論文の概要: We Need to Talk About Data: The Importance of Data Readiness in Natural
Language Processing
- arxiv url: http://arxiv.org/abs/2110.05464v1
- Date: Mon, 11 Oct 2021 17:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 13:21:58.874627
- Title: We Need to Talk About Data: The Importance of Data Readiness in Natural
Language Processing
- Title(参考訳): データについて語る必要がある:自然言語処理におけるデータ準備の重要性
- Authors: Fredrik Olsson and Magnus Sahlgren
- Abstract要約: 我々は、NLPにおける学術研究と学術以外の問題への応用との間にはギャップがあると主張している。
本稿では,データのアクセシビリティ,有効性,有用性に関して,研究者と外部利害関係者のコミュニケーションを改善する方法を提案する。
- 参考スコア(独自算出の注目度): 3.096615629099618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we identify the state of data as being an important reason for
failure in applied Natural Language Processing (NLP) projects. We argue that
there is a gap between academic research in NLP and its application to problems
outside academia, and that this gap is rooted in poor mutual understanding
between academic researchers and their non-academic peers who seek to apply
research results to their operations. To foster transfer of research results
from academia to non-academic settings, and the corresponding influx of
requirements back to academia, we propose a method for improving the
communication between researchers and external stakeholders regarding the
accessibility, validity, and utility of data based on Data Readiness Levels
\cite{lawrence2017data}. While still in its infancy, the method has been
iterated on and applied in multiple innovation and research projects carried
out with stakeholders in both the private and public sectors. Finally, we
invite researchers and practitioners to share their experiences, and thus
contributing to a body of work aimed at raising awareness of the importance of
data readiness for NLP.
- Abstract(参考訳): 本稿では,応用自然言語処理(NLP)プロジェクトにおいて,データの状態が失敗の重要な原因であることを示す。
nlpの学術研究とアカデミア以外の問題への応用との間にはギャップがあり、このギャップは研究結果を運用に応用しようとする学術研究者と非アカデミズムの仲間の間での理解不足に起因していると論じている。
アカデミックから非アカデミック・セッティングへの研究成果の移転と、それに対応する要件のアカデミックへの流入を促進するため、データ準備レベルに基づくデータのアクセシビリティ、妥当性、有用性に関する研究者と外部利害関係者のコミュニケーションを改善する方法を提案する。
この手法は、まだ初期段階にあるものの、民間と公共の両方の分野の利害関係者による複数のイノベーションや研究プロジェクトに繰り返し適用されてきた。
最後に、研究者や実践者たちに自らの経験を共有するよう依頼し、NLPにおけるデータ準備の重要性の認識を高めることを目的とした一連の研究に貢献する。
関連論文リスト
- The Compute Divide in Machine Learning: A Threat to Academic
Contribution and Scrutiny? [1.0985060632689174]
計算の偏差は、計算集約的な研究トピックにおける学術のみの研究チームの表現の減少と一致していることを示す。
この傾向から生じる課題に対処するため、留意的に学術的な洞察を広めるためのアプローチを推奨する。
論文 参考訳(メタデータ) (2024-01-04T01:26:11Z) - Context Retrieval via Normalized Contextual Latent Interaction for
Conversational Agent [3.9635467316436133]
本稿では,会話応答の質を向上させるために,関連情報を正確かつ効率的に識別できる新しい手法であるPK-NCLIを提案する。
実験の結果, PK-NCLIは, 難易度, 知識基盤, 訓練効率において, 最先端のPK-FoCuよりも優れていた。
論文 参考訳(メタデータ) (2023-12-01T18:53:51Z) - A Diachronic Analysis of Paradigm Shifts in NLP Research: When, How, and
Why? [84.46288849132634]
本稿では、因果発見と推論技術を用いて、科学分野における研究トピックの進化を分析するための体系的な枠組みを提案する。
我々は3つの変数を定義し、NLPにおける研究トピックの進化の多様な側面を包含する。
我々は因果探索アルゴリズムを用いてこれらの変数間の因果関係を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T11:08:00Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - A Decade of Knowledge Graphs in Natural Language Processing: A Survey [3.3358633215849927]
知識グラフ(KG)は学術と産業の両方から関心を集めている。
実体間の意味関係の表現として、KGは自然言語処理に特に関係があることが証明されている。
論文 参考訳(メタデータ) (2022-09-30T21:53:57Z) - Reproducibility Beyond the Research Community: Experience from NLP
Beginners [6.957948096979098]
我々は,最近のNLP論文の成果を再現した入門NLP講座で,93名の学生を対象に調査を行った。
意外なことに、我々の結果は、彼らの技術スキル(つまりプログラミングの経験)が、演習の完了に費やした労力に限られた影響を与えていることを示唆している。
私たちは、研究著者によるアクセシビリティの取り組みが、詳細なドキュメントや必要なモデルやデータセットへのアクセスなど、成功した経験の鍵になることに気付きました。
論文 参考訳(メタデータ) (2022-05-04T16:54:00Z) - Causal Inference in Natural Language Processing: Estimation, Prediction,
Interpretation and Beyond [38.055142444836925]
学術分野にまたがる研究を集約し、より広い自然言語処理の現場に配置する。
本稿では,因果効果を推定する統計的課題を紹介し,テキストを結果,治療,あるいはコンバウンディングに対処するための手段として用いるような設定を包含する。
さらに, NLPモデルの性能, 堅牢性, 公正性, 解釈可能性を向上させるために, 因果推論の潜在的利用について検討する。
論文 参考訳(メタデータ) (2021-09-02T05:40:08Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z) - Learnings from Frontier Development Lab and SpaceML -- AI Accelerators
for NASA and ESA [57.06643156253045]
AIとML技術による研究は、しばしば非同期の目標とタイムラインを備えたさまざまな設定で動作します。
我々は、NASAとESAの民間パートナーシップの下で、AIアクセラレータであるFrontier Development Lab(FDL)のケーススタディを実行する。
FDL研究は、AI研究の責任ある開発、実行、普及に基礎を置く原則的な実践に従う。
論文 参考訳(メタデータ) (2020-11-09T21:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。