論文の概要: InfoSync: Information Synchronization across Multilingual
Semi-structured Tables
- arxiv url: http://arxiv.org/abs/2307.03313v1
- Date: Thu, 6 Jul 2023 21:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 13:59:01.550517
- Title: InfoSync: Information Synchronization across Multilingual
Semi-structured Tables
- Title(参考訳): InfoSync:多言語半構造化テーブル間の情報同期
- Authors: Siddharth Khincha, Chelsi Jain, Vivek Gupta, Tushar Kataria, Shuo
Zhang
- Abstract要約: InfoSyncには14言語にまたがる100Kのエンティティ中心テーブル(Wikipedia Infobox)が含まれており、サブセット(3.5Kペア)が手動で注釈付けされている。
InfoSyncで評価すると、情報アライメントはF1スコア87.91(en -> non-en)を達成する。
本手法はウィキペディア上で77.28%の受け入れ率を示し,提案手法の有効性を示した。
- 参考スコア(独自算出の注目度): 11.748639926526993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information Synchronization of semi-structured data across languages is
challenging. For instance, Wikipedia tables in one language should be
synchronized across languages. To address this problem, we introduce a new
dataset InfoSyncC and a two-step method for tabular synchronization. InfoSync
contains 100K entity-centric tables (Wikipedia Infoboxes) across 14 languages,
of which a subset (3.5K pairs) are manually annotated. The proposed method
includes 1) Information Alignment to map rows and 2) Information Update for
updating missing/outdated information for aligned tables across multilingual
tables. When evaluated on InfoSync, information alignment achieves an F1 score
of 87.91 (en <-> non-en). To evaluate information updation, we perform
human-assisted Wikipedia edits on Infoboxes for 603 table pairs. Our approach
obtains an acceptance rate of 77.28% on Wikipedia, showing the effectiveness of
the proposed method.
- Abstract(参考訳): 言語間の半構造化データの情報同期は困難である。
例えば、ある言語のウィキペディアテーブルは言語間で同期する必要がある。
この問題に対処するために,新しいデータセットInfoSyncCと2段階のタブ同期手法を導入する。
InfoSyncには14言語にまたがる100Kのエンティティ中心テーブル(Wikipedia Infobox)が含まれており、サブセット(3.5Kペア)が手動で注釈付けされている。
提案手法には
1)地図列に対する情報アライメント及び情報アライメント
2)多言語テーブルにまたがるアライメントテーブルの欠落情報更新のための情報更新。
InfoSyncで評価すると、情報アライメントはF1スコア87.91(en <-> non-en)を達成する。
情報アップデーションを評価するため,603のテーブル対に対してInfoboxesで人手によるウィキペディア編集を行う。
本手法はウィキペディア上で77.28%の受け入れ率を示し,提案手法の有効性を示した。
関連論文リスト
- A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - WikiTableEdit: A Benchmark for Table Editing by Natural Language
Instruction [56.196512595940334]
本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。
Wikiデータセットから26,531のテーブルを活用し、6つの異なる基本操作のための自然言語命令を生成する。
WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し,その課題を実証する。
論文 参考訳(メタデータ) (2024-03-05T13:33:12Z) - BiSync: A Bilingual Editor for Synchronized Monolingual Texts [2.0411082897313984]
BiSyncはバイリンガル・ライティング・アシスタントで、ユーザーは自由に2つの言語でテキストを作成できる。
本稿では,同期に使用するモデルアーキテクチャについて詳述し,計算資源が限られている場合に高い精度が得られることを示す。
論文 参考訳(メタデータ) (2023-06-01T07:03:47Z) - Adapting to Non-Centered Languages for Zero-shot Multilingual
Translation [12.487990897680422]
我々は,非中心言語に適応して,シンプルで軽量で効果的な言語特化モデリング手法を提案する。
IWSLT17, Europarl, TED Talk, OPUS-100 データセットの Transformer を用いた実験により, 本手法が非中心データ条件に容易に適合できることが判明した。
論文 参考訳(メタデータ) (2022-09-09T06:34:12Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual
Relation Classification [0.0]
関係分類の現在のアプローチは、主に英語に焦点を当てている。
本稿では,多言語BERTに基づくベースラインモデルと,新しい多言語事前学習設定の2つの言語間関係分類モデルを提案する。
評価のために、英語、フランス語、ドイツ語、スペイン語、トルコ語における言語間関係分類のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-10-19T11:08:16Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。