論文の概要: Weakly Supervised Veracity Classification with LLM-Predicted Credibility Signals
- arxiv url: http://arxiv.org/abs/2309.07601v2
- Date: Mon, 14 Oct 2024 18:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:00:04.596251
- Title: Weakly Supervised Veracity Classification with LLM-Predicted Credibility Signals
- Title(参考訳): LLM予測可視信号を用いた弱教師付き精度分類
- Authors: João A. Leite, Olesya Razuvayevskaya, Kalina Bontcheva, Carolina Scarton,
- Abstract要約: Pastelは、Webコンテンツから信頼性信号を取り出すために、大きな言語モデルを活用する弱い教師付きアプローチである。
信頼性信号と信頼性の関係について検討し,各信号がモデル性能に与える影響について検討した。
- 参考スコア(独自算出の注目度): 4.895830603263421
- License:
- Abstract: Credibility signals represent a wide range of heuristics typically used by journalists and fact-checkers to assess the veracity of online content. Automating the extraction of credibility signals presents significant challenges due to the necessity of training high-accuracy, signal-specific extractors, coupled with the lack of sufficiently large annotated datasets. This paper introduces Pastel (Prompted weAk Supervision wiTh crEdibility signaLs), a weakly supervised approach that leverages large language models (LLMs) to extract credibility signals from web content, and subsequently combines them to predict the veracity of content without relying on human supervision. We validate our approach using four article-level misinformation detection datasets, demonstrating that Pastel outperforms zero-shot veracity detection by 38.3% and achieves 86.7% of the performance of the state-of-the-art system trained with human supervision. Moreover, in cross-domain settings where training and testing datasets originate from different domains, Pastel significantly outperforms the state-of-the-art supervised model by 63%. We further study the association between credibility signals and veracity, and perform an ablation study showing the impact of each signal on model performance. Our findings reveal that 12 out of the 19 proposed signals exhibit strong associations with veracity across all datasets, while some signals show domain-specific strengths.
- Abstract(参考訳): 信頼性信号は、ジャーナリストやファクトチェッカーがオンラインコンテンツの正確性を評価するために使用する幅広いヒューリスティックである。
信頼性信号の抽出を自動化することは、十分な量の注釈付きデータセットの不足に加えて、高精度な信号固有抽出器を訓練する必要があることによる重要な課題である。
本稿では,大規模な言語モデル(LLM)を活用してWebコンテンツから信頼性信号を抽出し,それらを組み合わせ,人間の監督に頼ることなくコンテンツの正確性を予測する手法であるPastel(Prompted weAk Supervision wiTh crEdibility signaLs)を紹介する。
提案手法は4つの記事レベルの誤情報検出データセットを用いて検証し、パステルがゼロショット精度を38.3%向上し、人間の監督によって訓練された最先端システムの性能の86.7%を達成できることを実証した。
さらに、データセットのトレーニングとテストが異なるドメインから始まるクロスドメイン設定では、Pastelは最先端の教師付きモデルよりも63%優れています。
さらに,信頼性信号と信頼性の関係について検討し,各信号がモデル性能に与える影響を示すアブレーション研究を行う。
提案した19の信号のうち12は、すべてのデータセットに強い相関性を示すが、いくつかの信号はドメイン固有の強度を示す。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Improved Adaptive Algorithm for Scalable Active Learning with Weak
Labeler [89.27610526884496]
Weak Labeler Active Cover (WL-AC)は、要求される精度を維持しながら、クエリの複雑さを低減するために、低品質の弱いラベルを堅牢に活用することができる。
受動学習と同一の精度を維持しつつラベル数を著しく削減し, 劣化したMNISTデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2022-11-04T02:52:54Z) - Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News
Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。
LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。
LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文 参考訳(メタデータ) (2022-06-10T16:01:58Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - Investigating Power laws in Deep Representation Learning [4.996066540156903]
本研究では,非ラベルデータセットにおける表現の質を評価するためのフレームワークを提案する。
表現学習に影響を与える3つの重要な属性に対して、電力法則の係数$alpha$を推定する。
特に$alpha$はラベルの知識のない表現から計算可能であり、非ラベル付きデータセットにおける表現の質を評価するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2022-02-11T18:11:32Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - KnowMAN: Weakly Supervised Multinomial Adversarial Networks [8.135448729558876]
本研究では,ラベリング関数に関連する信号の影響を制御可能な,対位法であるノウマンを提案する。
KnowMANは、事前訓練されたトランスフォーマー言語モデルと機能ベースのベースラインによる直接教師付き学習と比較して、結果を改善する。
論文 参考訳(メタデータ) (2021-09-16T14:01:30Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - Federated Self-Supervised Learning of Multi-Sensor Representations for
Embedded Intelligence [8.110949636804772]
スマートフォン、ウェアラブル、IoT(Internet of Things)デバイスは、教師付きモデルを学習するための集中リポジトリに蓄積できない豊富なデータを生成する。
本稿では,ウェーブレット変換に基づくテキストカルグラム・信号対応学習という自己教師付きアプローチを提案し,ラベルなしセンサ入力から有用な表現を学習する。
さまざまなパブリックデータセットのマルチビュー戦略を用いて,学習機能の品質を広範囲に評価し,すべての領域で高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-07-25T21:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。