論文の概要: The ApposCorpus: A new multilingual, multi-domain dataset for factual
appositive generation
- arxiv url: http://arxiv.org/abs/2011.03287v1
- Date: Fri, 6 Nov 2020 11:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:48:42.927270
- Title: The ApposCorpus: A new multilingual, multi-domain dataset for factual
appositive generation
- Title(参考訳): apposcorpus: 偽陽性生成のための新しい多言語多ドメインデータセット
- Authors: Yova Kementchedjhieva, Di Lu, Joel Tetreault
- Abstract要約: 名前付きエンティティの背景情報は、肯定的な名詞句の形で提供される。
我々は、タスクの新しい、より現実的で、エンドツーエンドの定義で、肯定的な生成における以前の作業を拡張します。
我々は、データとタスクを広範囲に分析し、それらがもたらす様々なモデリング課題を指摘した。
- 参考スコア(独自算出の注目度): 15.30217350143742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: News articles, image captions, product reviews and many other texts mention
people and organizations whose name recognition could vary for different
audiences. In such cases, background information about the named entities could
be provided in the form of an appositive noun phrase, either written by a human
or generated automatically. We expand on the previous work in appositive
generation with a new, more realistic, end-to-end definition of the task,
instantiated by a dataset that spans four languages (English, Spanish, German
and Polish), two entity types (person and organization) and two domains
(Wikipedia and News). We carry out an extensive analysis of the data and the
task, pointing to the various modeling challenges it poses. The results we
obtain with standard language generation methods show that the task is indeed
non-trivial, and leaves plenty of room for improvement.
- Abstract(参考訳): ニュース記事、画像キャプション、製品レビュー、その他多くのテキストは、異なるオーディエンスに対して名前認識が異なる人々や組織について言及している。
このような場合、名前付きエンティティの背景情報は、人によって書かれたり自動生成されたりする、肯定的な名詞句の形で提供することができる。
4つの言語(英語、スペイン語、ドイツ語、ポーランド語)、2つのエンティティタイプ(個人と組織)、2つのドメイン(WikipediaとNews)にまたがるデータセットによってインスタンス化されます。
我々は、データとタスクを広範囲に分析し、それらがもたらす様々なモデリング課題を指摘した。
標準言語生成手法で得られた結果は、タスクは確かに簡単ではなく、改善の余地がたくさんあることを示している。
関連論文リスト
- Visually Grounded Language Learning: a review of language games,
datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。
本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-12-05T02:17:29Z) - Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。
その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文 参考訳(メタデータ) (2023-10-09T04:48:14Z) - DocLangID: Improving Few-Shot Training to Identify the Language of
Historical Documents [7.535751594024775]
言語識別とは、文書中の文章の言語を認識するタスクを指す。
本稿では,未ラベルの歴史的文書の言語を識別するための移動学習手法であるDocLangIDを提案する。
論文 参考訳(メタデータ) (2023-05-03T15:45:30Z) - XF2T: Cross-lingual Fact-to-Text Generation for Low-Resource Languages [11.581072296148031]
拡張多言語データセット上で、人気のあるTransformerベースのテキスト生成モデルを用いて広範な研究を行う。
構造認識型入力エンコーディングとファクト認識を用いたマルチ言語 mT5 モデルにより,12言語の平均結果が得られた。
論文 参考訳(メタデータ) (2022-09-22T18:01:27Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - NewsEmbed: Modeling News through Pre-trained DocumentRepresentations [5.007237648361745]
そこで本研究では,人間をほとんど監督せず,意味に関連のある新鮮文書とそのトピックラベルをマイニングする新しい手法を提案する。
提案手法は,何十億もの高品質な有機的学習例を提供し,自然に多言語環境に拡張可能であることを示す。
論文 参考訳(メタデータ) (2021-06-01T15:59:40Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。