論文の概要: Time-Aware Datasets are Adaptive Knowledgebases for the New Normal
- arxiv url: http://arxiv.org/abs/2211.12508v1
- Date: Tue, 22 Nov 2022 05:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:29:43.904648
- Title: Time-Aware Datasets are Adaptive Knowledgebases for the New Normal
- Title(参考訳): タイムアウェアデータセットは、新しい正規化のための適応的知識ベースである
- Authors: Abhijit Suprem, Sanjyot Vaidya, Joao Eduardo Ferreira, Calton Pu
- Abstract要約: 時間クリティカルな現象を捉えるために,時間認識型誤情報データセットを提案する。
誤情報を進化させる証拠を提示し、単純な時間認識を組み込むことで精度が著しく向上することを示す。
第二に、25ヶ月にわたる大規模なCOVID-19誤報であるCOVID-TADを提示する。
- 参考スコア(独自算出の注目度): 2.4181367387692947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text classification and knowledge capture in language
models have relied on availability of large-scale text datasets. However,
language models are trained on static snapshots of knowledge and are limited
when that knowledge evolves. This is especially critical for misinformation
detection, where new types of misinformation continuously appear, replacing old
campaigns. We propose time-aware misinformation datasets to capture
time-critical phenomena. In this paper, we first present evidence of evolving
misinformation and show that incorporating even simple time-awareness
significantly improves classifier accuracy. Second, we present COVID-TAD, a
large-scale COVID-19 misinformation da-taset spanning 25 months. It is the
first large-scale misinformation dataset that contains multiple snapshots of a
datastream and is orders of magnitude bigger than related misinformation
datasets. We describe the collection and labeling pro-cess, as well as
preliminary experiments.
- Abstract(参考訳): 言語モデルのテキスト分類と知識獲得の最近の進歩は、大規模テキストデータセットの可用性に依存している。
しかし、言語モデルは知識の静的なスナップショットに基づいて訓練され、知識が進化すると制限される。
これは、古いキャンペーンを置き換え、新しいタイプの誤情報が継続的に現れる誤情報検出において特に重要である。
時間クリティカルな現象を捉えるために,時間認識型誤情報データセットを提案する。
本稿では,まず誤情報を進化させる証拠を提示し,単純な時間認識を組み込むことで分類器の精度が著しく向上することを示す。
第二に、25ヶ月にわたる大規模なCOVID-19誤報であるCOVID-TADを提示する。
これは、データストリームの複数のスナップショットを含む最初の大規模誤情報データセットであり、関連する誤情報データセットよりも桁違いに大きい。
本稿では,cessの収集とラベル付け,予備実験について述べる。
関連論文リスト
- Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models [1.472789264981363]
大規模言語モデル(LLM)はますます普及しているが、時間的情報を保持する能力と推論能力は依然として限られている。
本研究は,紀元前1万年から2100年の間,新しい数値時間データセットである textbfTempUN に関する12の最先端モデルを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-19T09:43:03Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a
Study on Indonesian Tweets [0.15229257192293202]
インドネシアでの新型コロナウイルスの誤情報検出に関する研究はいまだに少ない。
本研究では,ツイート誤報検出タスクに対して,IndoBERT事前学習言語モデルを用いた2段階分類モデルを提案する。
実験の結果、関連予測のためのBERTシーケンス分類器と誤情報検出のためのBi-LSTMの組み合わせは、87.02%の精度で他の機械学習モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-06-30T15:33:20Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - On Training Sketch Recognizers for New Domains [3.8149289266694466]
データ収集プロトコルの生態学的妥当性と小さなデータセットに対応する能力は、現実的なシナリオにおける認識者の精度に影響を与える重要な要因であることを示す。
データが乏しく高価である現実的なシナリオでは、ディープラーニングを小さなデータセットに適応させるための標準的措置が、代替手段と好意的に比較できないことを実証する。
論文 参考訳(メタデータ) (2021-04-18T13:24:49Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z) - Do Language Embeddings Capture Scales? [54.1633257459927]
事前学習された言語モデルは、オブジェクトのスカラーサイズに関するかなりの量の情報を取得することを示す。
我々は,事前学習と数理化における文脈情報を,その性能に影響を及ぼす2つの重要な要因として認識する。
論文 参考訳(メタデータ) (2020-10-11T21:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。