論文の概要: Blocks Architecture (BloArk): Efficient, Cost-Effective, and Incremental Dataset Architecture for Wikipedia Revision History
- arxiv url: http://arxiv.org/abs/2410.04410v1
- Date: Sun, 6 Oct 2024 08:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:00:46.486535
- Title: Blocks Architecture (BloArk): Efficient, Cost-Effective, and Incremental Dataset Architecture for Wikipedia Revision History
- Title(参考訳): Blocks Architecture (BloArk): Wikipediaの改訂履歴のための効率的で費用効果があり、インクリメンタルなデータセットアーキテクチャ
- Authors: Lingxi Li, Zonghai Yao, Sunjae Kwon, Hong Yu,
- Abstract要約: BloArkは、ブロック、セグメント、倉庫の3つの部分で構成されている。
BloArk builderは、元のWikiRevHistデータセットをXML使用法からLines(JSONL)フォーマットに変換する。
BloArk修飾器は、既存のデータベースの利用を改善するためにインクリメンタルな修正を行うために、以前構築された倉庫を利用する。
- 参考スコア(独自算出の注目度): 11.664780874692816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wikipedia (Wiki) is one of the most widely used and publicly available resources for natural language processing (NLP) applications. Wikipedia Revision History (WikiRevHist) shows the order in which edits were made to any Wiki page since its first modification. While the most up-to-date Wiki has been widely used as a training source, WikiRevHist can also be valuable resources for NLP applications. However, there are insufficient tools available to process WikiRevHist without having substantial computing resources, making additional customization, and spending extra time adapting others' works. Therefore, we report Blocks Architecture (BloArk), an efficiency-focused data processing architecture that reduces running time, computing resource requirements, and repeated works in processing WikiRevHist dataset. BloArk consists of three parts in its infrastructure: blocks, segments, and warehouses. On top of that, we build the core data processing pipeline: builder and modifier. The BloArk builder transforms the original WikiRevHist dataset from XML syntax into JSON Lines (JSONL) format for improving the concurrent and storage efficiency. The BloArk modifier takes previously-built warehouses to operate incremental modifications for improving the utilization of existing databases and reducing the cost of reusing others' works. In the end, BloArk can scale up easily in both processing Wikipedia Revision History and incrementally modifying existing dataset for downstream NLP use cases. The source code, documentations, and example usages are publicly available online and open-sourced under GPL-2.0 license.
- Abstract(参考訳): ウィキペディア(ウィキペディア)は、自然言語処理(NLP)アプリケーションにおいて最も広く使われ、一般に公開されているリソースの1つである。
Wikipedia Revision History (WikiRevHist) は、ウィキページが最初に修正されてから編集された順序を示している。
最も最新のWikiはトレーニングソースとして広く使われているが、WikiRevHistはNLPアプリケーションにとって貴重なリソースでもある。
しかし、WikiRevHistの処理には十分なコンピュータリソースを必要とせず、さらなるカスタマイズや、他人の作業への適応に余分な時間を費やすことなく、不十分なツールがある。
そこで我々はBlocks Architecture (BloArk) を報告した。BloArkは、実行時間、計算リソースの要求、WikiRevHistデータセットの処理における繰り返し処理を減らし、効率を重視したデータ処理アーキテクチャである。
BloArkは、ブロック、セグメント、倉庫の3つの部分で構成されている。
それに加えて,コアデータ処理パイプライン – builder と modifier も構築しています。
BloArkビルダーは、オリジナルのWikiRevHistデータセットをXML構文からJSON行(JSONL)フォーマットに変換し、並列性とストレージ効率を改善する。
BloArk修飾器は、既存のデータベースの利用を改善し、他人の作業を再利用するコストを削減するために、以前製造された倉庫をインクリメンタルに改造する。
最終的にBloArkは、Wikipediaのリビジョン履歴の処理と、下流のNLPユースケースのための既存のデータセットの漸進的な修正の両方で簡単にスケールアップできる。
ソースコード、ドキュメンテーション、サンプルの使用例はオンラインで公開されており、GPL-2.0ライセンス下でオープンソース化されている。
関連論文リスト
- Everything is Editable: Extend Knowledge Editing to Unstructured Data in Large Language Models [65.10456412127405]
現実世界の知識の大部分は、構造化されていない形式で保存される。
ローカル層キーバリューストレージや項駆動最適化のような技術は、構造化されていない知識を扱うのに有効ではない。
本研究では,非構造化知識編集手法,すなわちUnKEを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:42:40Z) - WikiFactDiff: A Large, Realistic, and Temporally Adaptable Dataset for Atomic Factual Knowledge Update in Causal Language Models [3.6921454547718784]
ウィキファクトディフ(WikiFactDiff)は、2つの日付間の事実知識の進化を記述したデータセットである。
これら3つの基本更新の様々な組み合わせから生じるいくつかの更新シナリオについて述べる。
論文 参考訳(メタデータ) (2024-03-21T12:45:12Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
最近のモデル編集は、大規模言語モデル(LLM)の少量の知識を効率的に更新するための有望な手法である
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
我々は、textscCounterFactおよびzsREデータセット上でSWEA$oplus$OSのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural
Language Instruction [56.196512595940334]
WikiInsは高品質な制御されたテキスト編集データセットで、情報性が向上している。
高品質なアノテートデータセットを用いて,大規模な銀のトレーニングセットを生成するための自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-08T04:46:39Z) - Wikidated 1.0: An Evolving Knowledge Graph Dataset of Wikidata's
Revision History [5.727994421498849]
Wikidataの完全なリビジョン履歴のデータセットであるWikidated 1.0を提示する。
私たちの知識を最大限に活用するために、それは進化する知識グラフの最初の大きなデータセットを構成する。
論文 参考訳(メタデータ) (2021-12-09T15:54:03Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - From Dataset Recycling to Multi-Property Extraction and Beyond [7.670897251425096]
本稿では,WikiReading Information extractとMachine Readingのデータセット上で,様々なトランスフォーマーアーキテクチャについて検討する。
提案したデュアルソースモデルは,現在の最先端技術よりも大きなマージンで優れている。
WikiReading Recycled - 新たに開発された公開データセットと複数プロパティ抽出の課題を紹介する。
論文 参考訳(メタデータ) (2020-11-06T08:22:12Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Mining Knowledge for Natural Language Inference from Wikipedia
Categories [53.26072815839198]
NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。
ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。
我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
論文 参考訳(メタデータ) (2020-10-03T00:45:01Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。