論文の概要: News Deja Vu: Connecting Past and Present with Semantic Search
- arxiv url: http://arxiv.org/abs/2406.15593v1
- Date: Fri, 21 Jun 2024 18:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 21:34:03.374082
- Title: News Deja Vu: Connecting Past and Present with Semantic Search
- Title(参考訳): News Deja Vu:過去と現在をセマンティック検索で結びつける
- Authors: Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan, Melissa Dell,
- Abstract要約: News Deja Vuは、歴史的ニュース記事のセマンティック検索ツールである。
歴史的かつオープンソースなニュース記事の大規模なコーパスにどのように展開できるかを示す。
- 参考スコア(独自算出の注目度): 2.446672595462589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social scientists and the general public often analyze contemporary events by drawing parallels with the past, a process complicated by the vast, noisy, and unstructured nature of historical texts. For example, hundreds of millions of page scans from historical newspapers have been noisily transcribed. Traditional sparse methods for searching for relevant material in these vast corpora, e.g., with keywords, can be brittle given complex vocabularies and OCR noise. This study introduces News Deja Vu, a novel semantic search tool that leverages transformer large language models and a bi-encoder approach to identify historical news articles that are most similar to modern news queries. News Deja Vu first recognizes and masks entities, in order to focus on broader parallels rather than the specific named entities being discussed. Then, a contrastively trained, lightweight bi-encoder retrieves historical articles that are most similar semantically to a modern query, illustrating how phenomena that might seem unique to the present have varied historical precedents. Aimed at social scientists, the user-friendly News Deja Vu package is designed to be accessible for those who lack extensive familiarity with deep learning. It works with large text datasets, and we show how it can be deployed to a massive scale corpus of historical, open-source news articles. While human expertise remains important for drawing deeper insights, News Deja Vu provides a powerful tool for exploring parallels in how people have perceived past and present.
- Abstract(参考訳): 社会科学者や一般大衆はしばしば、歴史的テキストの広大な、騒々しく、非構造的な性質によって複雑なプロセスである過去と平行して描くことで、現代の出来事を分析する。
例えば、過去の新聞から何億ページものスキャンがノイズに書き起こされている。
これらの巨大なコーパスで関連物質を検索する伝統的なスパース法、例えばキーワードで検索すると、複雑な語彙とOCRノイズが与えられる。
本研究は,トランスフォーマー大言語モデルとバイエンコーダアプローチを利用して,現代ニュースクエリに最も近い過去のニュース記事を特定する,新しいセマンティック検索ツールであるNews Deja Vuを紹介する。
News Deja Vuは、議論されている特定の名前のエンティティではなく、より広い並列性に焦点を当てるために、エンティティを認識し、マスクする。
そして、対照的に訓練された軽量のバイエンコーダは、現代的なクエリに最もよく似た歴史的記事を取得し、現在に特有の現象が、どのように様々な歴史的前例を持つかを説明する。
ソーシャルサイエンティストを対象とし、ユーザーフレンドリーなNews Deja Vuパッケージは、ディープラーニングに精通していない人たちにアクセスできるように設計されている。
大規模なテキストデータセットで動作し、歴史的かつオープンソースなニュース記事の大規模なコーパスにどのようにデプロイできるかを示す。
人間の専門知識は深い洞察を引き出す上でも重要だが、News Deja Vuは人々が過去と現在をどう認識したかを理解するための強力なツールを提供する。
関連論文リスト
- Contrastive Entity Coreference and Disambiguation for Historical Texts [2.446672595462589]
既存のエンティティの曖昧さの方法はしばしば、現代の知識ベースに記憶されていない個人を悩ませる歴史文書の正確さに欠ける。
本研究は,文献の文書間照合の解決と曖昧さの解消に3つの重要な貢献をしている。
論文 参考訳(メタデータ) (2024-06-21T18:22:14Z) - Newswire: A Large-Scale Structured Database of a Century of Historical News [3.562368079040469]
歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文 参考訳(メタデータ) (2024-06-13T16:20:05Z) - SCStory: Self-supervised and Continual Online Story Discovery [53.72745249384159]
SCStoryは、素早く公開されたニュース記事ストリームを人間のアノテーションなしでリアルタイムで消化するのに役立つ。
SCStoryは、ニュース記事ストリームのストーリー指向適応モデリングという新しいアイデアを取り入れて、自己指導的かつ継続的な学習を取り入れている。
論文 参考訳(メタデータ) (2023-11-27T04:50:01Z) - American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers [7.161822501147275]
本研究では,新聞画像から記事の全文を抽出する,新しい深層学習パイプラインを開発した。
これは、議会図書館の公共ドメインであるCentralling Americaコレクションの2000万件近いスキャンに適用される。
パイプラインには、レイアウト検出、可視性分類、カスタムOCR、複数のバウンディングボックスにまたがる記事テキストの関連が含まれている。
論文 参考訳(メタデータ) (2023-08-24T00:24:42Z) - A Massive Scale Semantic Similarity Dataset of Historical English [3.8073142980733]
この研究は、1920年から1989年までの70年間にわたる大規模な意味的類似性データセットを構築するために、非コピーライトの地元新聞から新たにデジタル化された新しい情報源を利用する。
我々は、文書レイアウトと言語理解を利用して記事とその見出しを関連付けます。続いて、ノイズや短縮の存在下で、どの記事が同じソースから来ているかを検出するために、ディープ・ニューラル・メソッドを使用します。
HEADLINESデータセットは、既存のほとんどのセマンティック類似性データセットよりも大幅に大きく、ずっと長い時間にわたってカバーされている。
論文 参考訳(メタデータ) (2023-06-30T17:16:04Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - History-Aware Hierarchical Transformer for Multi-session Open-domain
Dialogue System [59.78425104243993]
マルチセッションオープンドメイン対話のための履歴認識階層変換器(HAHT)を提案する。
HAHTは歴史会話の長期記憶を維持し、歴史情報を利用して現在の会話状況を理解する。
大規模マルチセッション会話データセットの実験結果は,提案したHAHTモデルがベースラインモデルより一貫して優れていることを示唆している。
論文 参考訳(メタデータ) (2023-02-02T06:54:33Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。