論文の概要: We Need to Talk About Data: The Importance of Data Readiness in Natural
Language Processing
- arxiv url: http://arxiv.org/abs/2110.05464v1
- Date: Mon, 11 Oct 2021 17:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 13:21:58.874627
- Title: We Need to Talk About Data: The Importance of Data Readiness in Natural
Language Processing
- Title(参考訳): データについて語る必要がある:自然言語処理におけるデータ準備の重要性
- Authors: Fredrik Olsson and Magnus Sahlgren
- Abstract要約: 我々は、NLPにおける学術研究と学術以外の問題への応用との間にはギャップがあると主張している。
本稿では,データのアクセシビリティ,有効性,有用性に関して,研究者と外部利害関係者のコミュニケーションを改善する方法を提案する。
- 参考スコア(独自算出の注目度): 3.096615629099618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we identify the state of data as being an important reason for
failure in applied Natural Language Processing (NLP) projects. We argue that
there is a gap between academic research in NLP and its application to problems
outside academia, and that this gap is rooted in poor mutual understanding
between academic researchers and their non-academic peers who seek to apply
research results to their operations. To foster transfer of research results
from academia to non-academic settings, and the corresponding influx of
requirements back to academia, we propose a method for improving the
communication between researchers and external stakeholders regarding the
accessibility, validity, and utility of data based on Data Readiness Levels
\cite{lawrence2017data}. While still in its infancy, the method has been
iterated on and applied in multiple innovation and research projects carried
out with stakeholders in both the private and public sectors. Finally, we
invite researchers and practitioners to share their experiences, and thus
contributing to a body of work aimed at raising awareness of the importance of
data readiness for NLP.
- Abstract(参考訳): 本稿では,応用自然言語処理(NLP)プロジェクトにおいて,データの状態が失敗の重要な原因であることを示す。
nlpの学術研究とアカデミア以外の問題への応用との間にはギャップがあり、このギャップは研究結果を運用に応用しようとする学術研究者と非アカデミズムの仲間の間での理解不足に起因していると論じている。
アカデミックから非アカデミック・セッティングへの研究成果の移転と、それに対応する要件のアカデミックへの流入を促進するため、データ準備レベルに基づくデータのアクセシビリティ、妥当性、有用性に関する研究者と外部利害関係者のコミュニケーションを改善する方法を提案する。
この手法は、まだ初期段階にあるものの、民間と公共の両方の分野の利害関係者による複数のイノベーションや研究プロジェクトに繰り返し適用されてきた。
最後に、研究者や実践者たちに自らの経験を共有するよう依頼し、NLPにおけるデータ準備の重要性の認識を高めることを目的とした一連の研究に貢献する。
関連論文リスト
- The Nature of NLP: Analyzing Contributions in NLP Papers [77.31665252336157]
我々は,NLP研究を構成するものについて,研究論文から定量的に検討する。
以上の結果から,NLPにおける機械学習の関与は,90年代前半から増加傾向にあることが明らかとなった。
2020年以降、言語と人々への関心が復活した。
論文 参考訳(メタデータ) (2024-09-29T01:29:28Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - What Can Natural Language Processing Do for Peer Review? [173.8912784451817]
現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。
ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。
筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
論文 参考訳(メタデータ) (2024-05-10T16:06:43Z) - Research information in the light of artificial intelligence: quality and data ecologies [0.0]
本稿では,研究情報に適したAI技術を見つけるための多分野間アプローチを提案する。
RIM(Professional Research Information Management)は、研究者にとってデータ駆動型ツールとしてますます重要になりつつある。
論文 参考訳(メタデータ) (2024-05-06T16:07:56Z) - Context Retrieval via Normalized Contextual Latent Interaction for
Conversational Agent [3.9635467316436133]
本稿では,会話応答の質を向上させるために,関連情報を正確かつ効率的に識別できる新しい手法であるPK-NCLIを提案する。
実験の結果, PK-NCLIは, 難易度, 知識基盤, 訓練効率において, 最先端のPK-FoCuよりも優れていた。
論文 参考訳(メタデータ) (2023-12-01T18:53:51Z) - A Diachronic Analysis of Paradigm Shifts in NLP Research: When, How, and
Why? [84.46288849132634]
本稿では、因果発見と推論技術を用いて、科学分野における研究トピックの進化を分析するための体系的な枠組みを提案する。
我々は3つの変数を定義し、NLPにおける研究トピックの進化の多様な側面を包含する。
我々は因果探索アルゴリズムを用いてこれらの変数間の因果関係を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T11:08:00Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - A Decade of Knowledge Graphs in Natural Language Processing: A Survey [3.3358633215849927]
知識グラフ(KG)は学術と産業の両方から関心を集めている。
実体間の意味関係の表現として、KGは自然言語処理に特に関係があることが証明されている。
論文 参考訳(メタデータ) (2022-09-30T21:53:57Z) - Causal Inference in Natural Language Processing: Estimation, Prediction,
Interpretation and Beyond [38.055142444836925]
学術分野にまたがる研究を集約し、より広い自然言語処理の現場に配置する。
本稿では,因果効果を推定する統計的課題を紹介し,テキストを結果,治療,あるいはコンバウンディングに対処するための手段として用いるような設定を包含する。
さらに, NLPモデルの性能, 堅牢性, 公正性, 解釈可能性を向上させるために, 因果推論の潜在的利用について検討する。
論文 参考訳(メタデータ) (2021-09-02T05:40:08Z) - Learnings from Frontier Development Lab and SpaceML -- AI Accelerators
for NASA and ESA [57.06643156253045]
AIとML技術による研究は、しばしば非同期の目標とタイムラインを備えたさまざまな設定で動作します。
我々は、NASAとESAの民間パートナーシップの下で、AIアクセラレータであるFrontier Development Lab(FDL)のケーススタディを実行する。
FDL研究は、AI研究の責任ある開発、実行、普及に基礎を置く原則的な実践に従う。
論文 参考訳(メタデータ) (2020-11-09T21:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。