論文の概要: Health Misinformation Detection in Web Content via Web2Vec: A Structural-, Content-based, and Context-aware Approach based on Web2Vec
- arxiv url: http://arxiv.org/abs/2407.07914v1
- Date: Fri, 05 Jul 2024 10:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 20:15:55.327722
- Title: Health Misinformation Detection in Web Content via Web2Vec: A Structural-, Content-based, and Context-aware Approach based on Web2Vec
- Title(参考訳): Web2VecによるWebコンテンツの健康情報検出:Web2Vecに基づく構造的・コンテンツ的・コンテキスト的アプローチ
- Authors: Rishabh Upadhyay, Gabriella Pasi, Marco Viviani,
- Abstract要約: 我々は、Webページの信頼性を評価するために、構造、コンテンツ、コンテキストベースの機能を研究するための研究の余地がまだあるWebページコンテンツに焦点を当てている。
本研究の目的は, フィッシングWebページ検出(Web2Vec)の文脈で最近提案されたWebページの埋め込み表現から始まる, 深層学習モデルに関連する機能の有効性を検討することである。
- 参考スコア(独自算出の注目度): 3.299010876315217
- License:
- Abstract: In recent years, we have witnessed the proliferation of large amounts of online content generated directly by users with virtually no form of external control, leading to the possible spread of misinformation. The search for effective solutions to this problem is still ongoing, and covers different areas of application, from opinion spam to fake news detection. A more recently investigated scenario, despite the serious risks that incurring disinformation could entail, is that of the online dissemination of health information. Early approaches in this area focused primarily on user-based studies applied to Web page content. More recently, automated approaches have been developed for both Web pages and social media content, particularly with the advent of the COVID-19 pandemic. These approaches are primarily based on handcrafted features extracted from online content in association with Machine Learning. In this scenario, we focus on Web page content, where there is still room for research to study structural-, content- and context-based features to assess the credibility of Web pages. Therefore, this work aims to study the effectiveness of such features in association with a deep learning model, starting from an embedded representation of Web pages that has been recently proposed in the context of phishing Web page detection, i.e., Web2Vec.
- Abstract(参考訳): 近年,外部制御がほとんどないユーザが直接生成する大量のオンラインコンテンツが増加し,誤情報を拡散する可能性が指摘されている。
この問題に対する効果的なソリューションの探索はまだ進行中であり、意見スパムから偽ニュース検出まで、さまざまな分野のアプリケーションをカバーする。
より最近調査されたシナリオは、偽情報の引き起こしが深刻なリスクがあるにもかかわらず、健康情報のオンライン普及のシナリオである。
この分野の初期のアプローチは、主にWebページコンテンツに適用されたユーザーベースの研究に焦点を当てていた。
最近では、Webページとソーシャルメディアコンテンツの両方に自動化アプローチが開発されており、特に新型コロナウイルスのパンデミックが出現している。
これらのアプローチは主に、機械学習に関連するオンラインコンテンツから抽出された手作りの機能に基づいている。
このシナリオでは、Webページの信頼性を評価するために、構造、コンテンツ、コンテキストベースの機能を研究するための研究の余地がまだ残っているWebページコンテンツに焦点を当てる。
そこで本研究では,Webページのフィッシング,すなわちWeb2Vecのコンテキストにおいて最近提案されたWebページの埋め込み表現から始まる,深層学習モデルに関連する機能の有効性について検討する。
関連論文リスト
- Finding Fake News Websites in the Wild [0.0860395700487494]
誤情報コンテンツの作成・配信に責任があるウェブサイトを識別する新しい手法を提案する。
さまざまな実行モードやコンテキストを調べて,Twitter上でのアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-09T18:00:12Z) - EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.91826112815384]
引用ベースのQAシステムは2つの欠点に悩まされている。
彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。
システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文 参考訳(メタデータ) (2024-06-14T19:40:38Z) - A Responsive Framework for Research Portals Data using Semantic Web
Technology [0.6798775532273751]
本研究の目的は、研究ポータルデータのセマンティックな組織化のためのフレームワークを設計することでこの問題に対処することである。
このフレームワークは、Microsoft AcademicとIEEE Xploreという2つの特定の研究ポータルから情報を抽出することに焦点を当てている。
論文 参考訳(メタデータ) (2023-06-20T16:12:33Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - ClueWeb22: 10 Billion Web Documents with Rich Information [28.68403988636645]
ClueWeb22は、豊富な情報を扱う100億のWebページを提供する。
その設計は、学術・産業研究を支援するための高品質で大規模なウェブコーパスの必要性に影響された。
論文 参考訳(メタデータ) (2022-11-29T00:49:40Z) - CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.11609398029783]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。
我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。
提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (2021-10-24T00:21:46Z) - A Crawler Architecture for Harvesting the Clear, Social, and Dark Web
for IoT-Related Cyber-Threat Intelligence [1.1661238776379117]
クリアでソーシャルでダークなWebは最近、貴重なサイバーセキュリティ情報の豊富な情報源として特定されている。
我々は、クリアウェブのセキュリティウェブサイト、ソーシャルウェブのセキュリティフォーラム、ダークウェブのハッカーフォーラム/マーケットプレースからデータを透過的に収集する新しいクローリングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-14T19:26:08Z) - Threat of Adversarial Attacks on Deep Learning in Computer Vision:
Survey II [86.51135909513047]
ディープラーニングは、予測を操作できる敵攻撃に対して脆弱である。
本稿では,ディープラーニングに対する敵対的攻撃におけるコンピュータビジョンコミュニティの貢献を概観する。
この領域では、非専門家に技術的な用語の定義を提供する。
論文 参考訳(メタデータ) (2021-08-01T08:54:47Z) - Inside ASCENT: Exploring a Deep Commonsense Knowledge Base and its Usage
in Question Answering [25.385862319865335]
ASCENTは、Webコンテンツからコモンセンスアサーションを抽出し、統合するための、完全に自動化された方法論である。
このデモでは、ユーザが構築プロセスを理解し、コンテンツを探索し、質問応答のユースケースに与える影響を観察するWebポータルを提示する。
論文 参考訳(メタデータ) (2021-05-28T08:17:33Z) - Bringing Cognitive Augmentation to Web Browsing Accessibility [69.62988485669146]
我々は、より自然でアクセス可能なwebブラウジング体験を提供するための認知的拡張によってもたらされる機会を探求する。
我々は,BVIP対話型Webブラウジングニーズを支援するための概念的フレームワークを開発する。
構造的特徴とコンテンツ機能のみを考慮した初期の作業とプロトタイプについて説明する。
論文 参考訳(メタデータ) (2020-12-07T14:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。