論文の概要: A Massive Scale Semantic Similarity Dataset of Historical English
- arxiv url: http://arxiv.org/abs/2306.17810v2
- Date: Thu, 24 Aug 2023 01:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 17:30:16.563265
- Title: A Massive Scale Semantic Similarity Dataset of Historical English
- Title(参考訳): 歴史的英語の大規模意味的類似性データセット
- Authors: Emily Silcock, Melissa Dell
- Abstract要約: この研究は、1920年から1989年までの70年間にわたる大規模な意味的類似性データセットを構築するために、非コピーライトの地元新聞から新たにデジタル化された新しい情報源を利用する。
我々は、文書レイアウトと言語理解を利用して記事とその見出しを関連付けます。続いて、ノイズや短縮の存在下で、どの記事が同じソースから来ているかを検出するために、ディープ・ニューラル・メソッドを使用します。
HEADLINESデータセットは、既存のほとんどのセマンティック類似性データセットよりも大幅に大きく、ずっと長い時間にわたってカバーされている。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A diversity of tasks use language models trained on semantic similarity data.
While there are a variety of datasets that capture semantic similarity, they
are either constructed from modern web data or are relatively small datasets
created in the past decade by human annotators. This study utilizes a novel
source, newly digitized articles from off-copyright, local U.S. newspapers, to
assemble a massive-scale semantic similarity dataset spanning 70 years from
1920 to 1989 and containing nearly 400M positive semantic similarity pairs.
Historically, around half of articles in U.S. local newspapers came from
newswires like the Associated Press. While local papers reproduced articles
from the newswire, they wrote their own headlines, which form abstractive
summaries of the associated articles. We associate articles and their headlines
by exploiting document layouts and language understanding. We then use deep
neural methods to detect which articles are from the same underlying source, in
the presence of substantial noise and abridgement. The headlines of reproduced
articles form positive semantic similarity pairs. The resulting publicly
available HEADLINES dataset is significantly larger than most existing semantic
similarity datasets and covers a much longer span of time. It will facilitate
the application of contrastively trained semantic similarity models to a
variety of tasks, including the study of semantic change across space and time.
- Abstract(参考訳): タスクの多様性は、意味的類似性データに基づいて訓練された言語モデルを使用する。
セマンティックな類似性をキャプチャするさまざまなデータセットがあるが、それらは現代のWebデータから構築されているか、あるいは人間アノテーションによって過去10年間に作成された比較的小さなデータセットである。
本研究は、1920年から1989年までの70年間に渡り、約4億件のポジティブなセマンティックな類似性ペアを含む大規模なセマンティックな類似性データセットを構築するために、地元紙のコピーライトから新たにデジタル化された新しい情報源を利用する。
歴史的に、アメリカの地方新聞の約半数はap通信のようなニュースワイヤーから来ていた。
地元の新聞はnewswireの記事を再現したが、彼らは独自の見出しを書き、関連する記事の抽象的な要約を形成した。
我々は文書レイアウトと言語理解を利用して記事と見出しを関連付ける。
次に、深層神経法を用いて、ノイズや橋梁の存在下で、どの記事が同じソースからのものであるかを検出する。
再現された記事の見出しは、ポジティブな意味的類似性対を形成する。
その結果公開されたHEADLINESデータセットは、既存のほとんどのセマンティック類似性データセットよりも大幅に大きく、はるかに長い時間にわたってカバーされている。
対照的に訓練されたセマンティックな類似性モデルが、空間と時間にわたるセマンティックな変化の研究を含む様々なタスクに応用される。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - News Deja Vu: Connecting Past and Present with Semantic Search [2.446672595462589]
News Deja Vuは、歴史的ニュース記事のセマンティック検索ツールである。
歴史的かつオープンソースなニュース記事の大規模なコーパスにどのように展開できるかを示す。
論文 参考訳(メタデータ) (2024-06-21T18:50:57Z) - Newswire: A Large-Scale Structured Database of a Century of Historical News [3.562368079040469]
歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文 参考訳(メタデータ) (2024-06-13T16:20:05Z) - American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers [7.161822501147275]
本研究では,新聞画像から記事の全文を抽出する,新しい深層学習パイプラインを開発した。
これは、議会図書館の公共ドメインであるCentralling Americaコレクションの2000万件近いスキャンに適用される。
パイプラインには、レイアウト検出、可視性分類、カスタムOCR、複数のバウンディングボックスにまたがる記事テキストの関連が含まれている。
論文 参考訳(メタデータ) (2023-08-24T00:24:42Z) - PESTS: Persian_English Cross Lingual Corpus for Semantic Textual Similarity [5.439505575097552]
言語間セマンティック類似性モデルでは、言語間セマンティック類似性データセットが利用できないため、機械翻訳を用いる。
ペルシャ語は低資源言語の1つであり、二つの言語の文脈を理解できるモデルの必要性は、これまで以上に感じられる。
本稿では,ペルシア語と英語の文間の意味的類似性のコーパスを,言語専門家を用いて初めて作成した。
論文 参考訳(メタデータ) (2023-05-13T11:02:50Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Learning language variations in news corpora through differential
embeddings [0.0]
中心的な単語表現とスライスに依存したコントリビューションを持つモデルでは,異なるコーパスから単語埋め込みを同時に学習できることを示す。
各コーパスの年次スライスにおける時間的ダイナミクスと、米国英語と英国英語の言語変化をキュレートしたマルチソースコーパスで捉えることができることを示す。
論文 参考訳(メタデータ) (2020-11-13T14:50:08Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。