論文の概要: Data-to-Value: An Evaluation-First Methodology for Natural Language
Projects
- arxiv url: http://arxiv.org/abs/2201.07725v1
- Date: Wed, 19 Jan 2022 17:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 14:57:57.534826
- Title: Data-to-Value: An Evaluation-First Methodology for Natural Language
Projects
- Title(参考訳): Data-to-Value: 自然言語プロジェクトの評価ファースト方法論
- Authors: Jochen L. Leidner
- Abstract要約: Data to Value"(D2V)は、ビッグデータテキスト分析プロジェクトのための新しい方法論である。
ビッグデータテキスト分析プロジェクトチームとトピック間の切断を避けるため、質問の詳細なカタログでガイドされている。
- 参考スコア(独自算出の注目度): 3.9378507882929554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Big data, i.e. collecting, storing and processing of data at scale, has
recently been possible due to the arrival of clusters of commodity computers
powered by application-level distributed parallel operating systems like
HDFS/Hadoop/Spark, and such infrastructures have revolutionized data mining at
scale. For data mining project to succeed more consistently, some methodologies
were developed (e.g. CRISP-DM, SEMMA, KDD), but these do not account for (1)
very large scales of processing, (2) dealing with textual (unstructured) data
(i.e. Natural Language Processing (NLP, "text analytics"), and (3)
non-technical considerations (e.g. legal, ethical, project managerial aspects).
To address these shortcomings, a new methodology, called "Data to Value"
(D2V), is introduced, which is guided by a detailed catalog of questions in
order to avoid a disconnect of big data text analytics project team with the
topic when facing rather abstract box-and-arrow diagrams commonly associated
with methodologies.
- Abstract(参考訳): ビッグデータ、すなわち大規模なデータの収集、保存、処理は、HDFS/Hadoop/Sparkのようなアプリケーションレベルの分散並列オペレーティングシステムをベースとするコモディティコンピュータのクラスタが登場し、そのようなインフラストラクチャが大規模なデータマイニングに革命をもたらしたため、最近可能になった。
データマイニングプロジェクトがより一貫して成功するためには、いくつかの方法論(CRISP-DM、SEMMA、KDDなど)が開発されたが、これは(1)非常に大規模な処理、(2)テキスト(非構造化)データ(NLP、テキスト分析)、(3)非技術的考察(法的、倫理的、プロジェクト管理的側面など)を考慮に入れていない。
これらの欠点に対処するために、ビッグデータテキスト分析プロジェクトチームが方法論に共通する抽象的なボックス・アンド・アローダイアグラムに直面した際に、トピックとの切り離しを避けるために、詳細な質問カタログによってガイドされる"data to value"(d2v)と呼ばれる新しい方法論が導入されている。
関連論文リスト
- Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - Leveraging Data Augmentation for Process Information Extraction [0.0]
自然言語テキストデータに対するデータ拡張の適用について検討する。
データ拡張は、自然言語テキストからビジネスプロセスモデルを生成するタスクのための機械学習メソッドを実現する上で重要なコンポーネントである。
論文 参考訳(メタデータ) (2024-04-11T06:32:03Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Utilizing Domain Knowledge: Robust Machine Learning for Building Energy
Prediction with Small, Inconsistent Datasets [1.1081836812143175]
機械学習(ML)アプリケーションに対する膨大なデータ需要は、現在ボトルネックとなっている。
本稿では,先行知識とデータ駆動手法を組み合わせることで,データの依存性を大幅に低減する手法を提案する。
知識符号化データ駆動手法としてCBMLをエネルギー効率の高い建築工学の文脈で検討する。
論文 参考訳(メタデータ) (2023-01-23T08:56:11Z) - Investigation of Topic Modelling Methods for Understanding the Reports
of the Mining Projects in Queensland [2.610470075814367]
鉱業では、プロジェクト管理プロセスにおいて多くの報告が生成される。
ドキュメントクラスタリングは、この問題に対処するための強力なアプローチです。
The three method, Latent Dirichlet Allocation (LDA), Non negative Matrix Factorization (NMF), Non negative Factorization (NTF) were compared。
論文 参考訳(メタデータ) (2021-11-05T15:52:03Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。
提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2021-02-04T16:32:57Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。