論文の概要: DarkBERT: A Language Model for the Dark Side of the Internet
- arxiv url: http://arxiv.org/abs/2305.08596v1
- Date: Mon, 15 May 2023 12:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 14:33:05.374220
- Title: DarkBERT: A Language Model for the Dark Side of the Internet
- Title(参考訳): DarkBERT: インターネットのダークサイドのための言語モデル
- Authors: Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee,
Seungwon Shin
- Abstract要約: 我々はDark Webデータに基づいて事前訓練された言語モデルであるDarkBERTを紹介する。
ダークウェブの極端な語彙的・構造的多様性に対処するために、DarkBERTのトレーニングに使用されるテキストデータをフィルタリングし、コンパイルするために要するステップについて述べる。
評価の結果,DarkBERTは現在の言語モデルより優れており,今後のダークウェブ研究に有用な情報源となる可能性が示唆された。
- 参考スコア(独自算出の注目度): 26.28825428391132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has suggested that there are clear differences in the
language used in the Dark Web compared to that of the Surface Web. As studies
on the Dark Web commonly require textual analysis of the domain, language
models specific to the Dark Web may provide valuable insights to researchers.
In this work, we introduce DarkBERT, a language model pretrained on Dark Web
data. We describe the steps taken to filter and compile the text data used to
train DarkBERT to combat the extreme lexical and structural diversity of the
Dark Web that may be detrimental to building a proper representation of the
domain. We evaluate DarkBERT and its vanilla counterpart along with other
widely used language models to validate the benefits that a Dark Web domain
specific model offers in various use cases. Our evaluations show that DarkBERT
outperforms current language models and may serve as a valuable resource for
future research on the Dark Web.
- Abstract(参考訳): 近年の研究では、ダークウェブで使われている言語とサーフェスウェブとは明らかに異なることが示されている。
ダークウェブの研究は一般的にドメインのテキスト分析を必要とするため、ダークウェブ特有の言語モデルは研究者に貴重な洞察を与える可能性がある。
本研究では,Dark Webデータに基づく言語モデルであるDarkBERTを紹介する。
ドメインの適切な表現を構築するのに不利なダークウェブの極端な語彙的および構造的多様性と戦うために、darkbertのトレーニングに使用されるテキストデータをフィルタリングしてコンパイルするステップについて説明する。
我々は、DarkBERTとそのバニラと他の広く使われている言語モデルを評価し、様々なユースケースにおいて、Dark Webドメイン固有のモデルが提供する利点を検証する。
評価の結果,DarkBERTは現在の言語モデルより優れており,今後のダークウェブ研究に有用な情報源となる可能性が示唆された。
関連論文リスト
- Detecting Deceptive Dark Patterns in E-commerce Platforms [0.0]
ダークパターン(ダークパターン)は、電子商取引サイトがウェブサイトに利益をもたらす方法でユーザーの振舞いを操作するために使う偽のユーザーインターフェースである。
既存のソリューションとしては、コンピュータビジョンと自然言語処理を使用するUIGuardや、検出可能性に基づいてダークパターンを分類するアプローチ、あるいはデータセットに基づいてトレーニングされた機械学習モデルを使用するアプローチなどがある。
我々は,Webスクレイピング手法と細調整されたBERT言語モデルを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-05-27T16:32:40Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Why is the User Interface a Dark Pattern? : Explainable Auto-Detection
and its Analysis [1.4474137122906163]
ダークパターンは、ユーザーが意図せず振る舞うオンラインサービスのための偽りのユーザーインターフェイスデザインである。
解釈可能なダークパターン自動検出,すなわち,特定のユーザインターフェースがダークパターンを持つものとして検出される理由について検討する。
我々の発見は、ユーザーがダークパターンで操作されることを防ぎ、より公平なインターネットサービスの構築を支援する可能性がある。
論文 参考訳(メタデータ) (2023-12-30T03:53:58Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Linguistic Dead-Ends and Alphabet Soup: Finding Dark Patterns in
Japanese Apps [10.036312061637764]
日本市場で人気のモバイルアプリを200本分析した。
ほとんどのアプリはダークパターンで、1アプリあたり平均3.9であることがわかった。
我々は「翻訳」と「Alphabet Soup」の形式で「言語的デッドエンディング」という新しい暗黒パターンのクラスを特定した。
論文 参考訳(メタデータ) (2023-04-22T08:22:32Z) - VeriDark: A Large-Scale Benchmark for Authorship Verification on the
Dark Web [25.00969884543201]
VeriDarkは3つの大規模オーサシップ検証データセットと1つのオーサシップ識別データセットで構成されるベンチマークです。
3つのデータセット上での競合NLPベースラインの評価を行い、これらのアプローチの限界をよりよく理解するために予測の解析を行う。
論文 参考訳(メタデータ) (2022-07-07T17:57:11Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Shedding New Light on the Language of the Dark Web [28.203247249201535]
本稿では,テキスト解析に適した10000のWebドキュメントからなるDark WebデータセットであるCoDAを紹介する。
我々はダークウェブの言語学的分析を行い、ダークウェブとサーフェスウェブのテキスト的差異について検討する。
また,ダークウェブページ分類の各種手法の性能評価を行った。
論文 参考訳(メタデータ) (2022-04-14T11:17:22Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。