論文の概要: The Tag is the Signal: URL-Agnostic Credibility Scoring for Messages on Telegram
- arxiv url: http://arxiv.org/abs/2601.13294v1
- Date: Mon, 19 Jan 2026 18:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.012603
- Title: The Tag is the Signal: URL-Agnostic Credibility Scoring for Messages on Telegram
- Title(参考訳): The Tag is the Signal: URL-Agnostic Credibility Scoring for Messages on Telegram
- Authors: Yipeng Wang, Huy Gia Han Vu, Mohit Singhal,
- Abstract要約: 本稿では,Telegram上での短絡メッセージのためのTAG2CREDパイプラインを提案する。
私たちのモデルは、テキストに割り当てられたタグに基づいて、各ポストを直接スコアします。
結果:TAG2CREDモデルのROC-AUCは0.871に達し,マクロF1値は0.787,ブライアスコアは0.167であった。
- 参考スコア(独自算出の注目度): 1.7231375714818624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Telegram has become one of the leading platforms for disseminating misinformational messages. However, many existing pipelines still classify each message's credibility based on the reputation of its associated domain names or its lexical features. Such methods work well on traditional long-form news articles published by well-known sources, but high-risk posts on Telegram are short and URL-sparse, leading to failures for link-based and standard TF-IDF models. To this end, we propose the TAG2CRED pipeline, a method designed for such short, convoluted messages. Our model will directly score each post based on the tags assigned to the text. We designed a concise label system that covers the dimensions of theme, claim type, call to action, and evidence. The fine-tuned large language model (LLM) assigns tags to messages and then maps these tags to calibrated risk scores in the [0,1] interval through L2-regularized logistic regression. We evaluated 87,936 Telegram messages associated with Media Bias/Fact Check (MBFC), using URL masking and domain disjoint splits. The results showed that the ROC-AUC of the TAG2CRED model reached 0.871, the macro-F1 value was 0.787, and the Brier score was 0.167, outperforming the baseline TF-IDF (macro-F1 value 0.737, Brier score 0.248); at the same time, the number of features used in this model is much smaller, and the generalization ability on infrequent domains is stronger. The performance of the stacked ensemble model (TF-IDF + TAG2CRED + SBERT) was further improved over the baseline SBERT. ROC-AUC reached 0.901, and the macro-F1 value was 0.813 (Brier score 0.114). This indicates that style labels and lexical features may capture different but complementary dimensions of information risk.
- Abstract(参考訳): Telegramは、誤報メッセージを広める主要なプラットフォームの一つになっている。
しかし、既存のパイプラインの多くは、関連するドメイン名や語彙的特徴の評判に基づいて、各メッセージの信頼性をいまだに分類している。
このような手法は、よく知られた情報源が発行する伝統的な長文のニュース記事でもうまく機能するが、Telegramのリスクの高い投稿は短くURLが不足しており、リンクベースおよび標準TF-IDFモデルの失敗につながっている。
そこで本研究では,このような短絡メッセージを対象としたTAG2CREDパイプラインを提案する。
私たちのモデルは、テキストに割り当てられたタグに基づいて、各ポストを直接スコアします。
我々は,テーマ,クレームタイプ,コール・トゥ・アクション,エビデンスといった次元をカバーする簡潔なラベルシステムを構築した。
微調整された大言語モデル(LLM)は、メッセージにタグを割り当て、L2正規化ロジスティック回帰を通して、[0,1]間隔のキャリブレーションされたリスクスコアにこれらのタグをマッピングする。
メディアバイアス/ファクトチェック(MBFC)に関連するTelegramメッセージ87,936件について,URLマスキングとドメイン分割を用いて評価した。
その結果、TAG2CREDモデルのROC-AUCは0.871に達し、マクロF1値は0.787、ブライアスコアは0.167であり、ベースラインTF-IDF(マクロF1値0.737、ブライアスコア0.248)を上回った。
積み重ねアンサンブルモデル(TF-IDF + TAG2CRED + SBERT)の性能は、ベースラインのSBERTよりもさらに向上した。
ROC-AUCは0.901に達し、マクロF1値は0.813(Brier score 0.114)であった。
このことは、スタイルラベルと語彙的特徴が異なるが相補的な情報リスクを捉える可能性があることを示している。
関連論文リスト
- FedAPT: Federated Adversarial Prompt Tuning for Vision-Language Models [97.35577473867296]
Federated Adversarial Prompt Tuning (textbfFedAPT)は、FPTの対向性を高めるために設計された新しい手法である。
この問題に対処するために,テキストプロンプトから視覚的なプロンプトを生成するtextbfclass-awareプロンプトジェネレータを提案する。
複数の画像分類データセットの実験は、対向ロバスト性を改善する上でFedAPTの優位性を示している。
論文 参考訳(メタデータ) (2025-09-03T03:46:35Z) - MisinfoTeleGraph: Network-driven Misinformation Detection for German Telegram Messages [5.533030792414604]
Misinfo-TeleGraphは、誤情報検出のための最初のドイツ語のTelegramベースのグラフデータセットである。
公開チャネルから500万以上のメッセージが送信され、メタデータ、チャンネルの関係性、弱いラベルと強いラベルが満載されている。
メッセージフォワードをネットワーク構造として組み込んだ,テキストのみのモデルとグラフニューラルネットワーク(GNN)の両方を評価する。
論文 参考訳(メタデータ) (2025-06-27T12:32:19Z) - Label-semantics Aware Generative Approach for Domain-Agnostic Multilabel Classification [25.4439290862464]
マルチラベルテキスト分類のための堅牢で効率的なドメインに依存しない生成モデルフレームワークを提案する。
提案手法は,事前に定義されたラベル記述を利用し,入力テキストに基づいてこれらの記述を生成するように訓練する。
提案モデルの有効性を,評価されたすべてのデータセットにまたがって,新たな最先端性能を実現することによって実証する。
論文 参考訳(メタデータ) (2025-06-07T14:07:07Z) - POSTER: A Multi-Signal Model for Detecting Evasive Smishing [2.7039386580759666]
本研究では,国別セマンティックタグ,構造パターンタグ,文字レベルのスタイリスティックキュー,文脈語句埋め込みを組み合わせたマルチチャネルスマイシング検出モデルを提案する。
私たちは、24,086個のスマイシングサンプルを含む5つのデータセットで84,000以上のメッセージをキュレートし、レバーベリングしました。
我々の統合アーキテクチャは、97.89%の精度、0.963のF1スコア、99.73%のAUCを達成し、多種多様な言語的および構造的手がかりを捉え、シングルストリームモデルより優れている。
論文 参考訳(メタデータ) (2025-05-23T12:45:34Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文 参考訳(メタデータ) (2022-12-20T02:17:30Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z) - HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization [75.45291796263103]
階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
論文 参考訳(メタデータ) (2021-04-12T06:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。