論文の概要: Russian Web Tables: A Public Corpus of Web Tables for Russian Language
Based on Wikipedia
- arxiv url: http://arxiv.org/abs/2210.06353v1
- Date: Mon, 3 Oct 2022 16:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 16:04:22.434957
- Title: Russian Web Tables: A Public Corpus of Web Tables for Russian Language
Based on Wikipedia
- Title(参考訳): ロシア語Web Tables:ウィキペディアをベースとしたロシア語Web Tablesの公開コーパス
- Authors: Platon Fedorov, Alexey Mironov, George Chernishev
- Abstract要約: 我々は、ロシア語の資料から特別に作成されたWebテーブルの最初のコーパスを提示する。
これは、ロシアのウィキペディアをクロールするために開発した特別なツールキットによって構築されました。
コーパスもツールキットもオープンソースで公開されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Corpora that contain tabular data such as WebTables are a vital resource for
the academic community. Essentially, they are the backbone of any modern
research in information management. They are used for various tasks of data
extraction, knowledge base construction, question answering, column semantic
type detection and many other. Such corpora are useful not only as a source of
data, but also as a base for building test datasets. So far, there were no such
corpora for the Russian language and this seriously hindered research in the
aforementioned areas.
In this paper, we present the first corpus of Web tables created specifically
out of Russian language material. It was built via a special toolkit we have
developed to crawl the Russian Wikipedia. Both the corpus and the toolkit are
open-source and publicly available. Finally, we present a short study that
describes Russian Wikipedia tables and their statistics.
- Abstract(参考訳): webtablesのような表データを含むコーパスは、学術コミュニティにとって重要なリソースである。
基本的には、情報管理における現代の研究のバックボーンである。
データ抽出、知識ベース構築、質問応答、列意味型検出など、さまざまなタスクに使用されている。
このようなコーパスは、データソースとしてだけでなく、テストデータセット構築のベースとしても有用です。
これまでのところ、ロシア語のコーポラは存在せず、このことが前述の分野の研究を著しく妨げた。
本稿では,ロシア語資料から特別に作成したWebテーブルのコーパスについて紹介する。
ロシアのウィキペディアをクロールするために開発した特別なツールキットを使って作られた。
コーパスもツールキットもオープンソースで公開されている。
最後に,ロシア語のウィキペディア表とその統計について述べる。
関連論文リスト
- Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - Towards a Brazilian History Knowledge Graph [50.26735825937335]
ブラジル歴史辞典(DHBB)とウィキペディア/ウィキデータに基づくブラジルの歴史に関する知識グラフを構築した。
DHBBに記述されている多くの用語/エンティティがWikidataに対応する概念(またはQ項目)を持っていないことを示す。
論文 参考訳(メタデータ) (2024-03-28T22:05:32Z) - Carolina: a General Corpus of Contemporary Brazilian Portuguese with
Provenance, Typology and Versioning Information [0.629199190108771]
カロライナは、ウェブ・アズ・コーパス・方法論を用いて建設中のブラジルのポルトガル語テキストの大規模なオープンコーパスである。
カロライナで最初の公開バージョンは653,322,577ドルのトークンで、7ドル以上の広さに分散している。
論文 参考訳(メタデータ) (2023-03-28T16:09:40Z) - WikiMulti: a Corpus for Cross-Lingual Summarization [5.566656105144887]
言語間の要約は、異なる言語におけるソース文書の1つの言語で要約を生成するタスクである。
ウィキマルティ (WikiMulti) は、ウィキペディアの記事に基づく15言語による言語間要約のための新しいデータセットである。
論文 参考訳(メタデータ) (2022-04-23T16:47:48Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Tracking Knowledge Propagation Across Wikipedia Languages [1.8447697408534176]
本稿では,ウィキペディアにおける言語間知識伝達のデータセットについて述べる。
データセットは309の言語版と3300万の記事をカバーしている。
言語版のサイズは伝播速度と関連していることがわかった。
論文 参考訳(メタデータ) (2021-03-30T18:36:13Z) - Entity Recognition and Relation Extraction from Scientific and Technical
Texts in Russian [0.0]
本論文は,情報技術に関する学術文献から情報抽出方法の研究に係わるものである。
ロシア語の方法のいくつかの修正が提案されている。
また、キーワード抽出法、語彙法、ニューラルネットワークに基づくいくつかの手法を比較した実験結果も含まれている。
論文 参考訳(メタデータ) (2020-11-19T13:40:03Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。