論文の概要: Language Models for Adult Service Website Text Analysis
- arxiv url: http://arxiv.org/abs/2507.10743v1
- Date: Mon, 14 Jul 2025 19:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.854193
- Title: Language Models for Adult Service Website Text Analysis
- Title(参考訳): 成人向けWebサイトテキスト分析のための言語モデル
- Authors: Nickolas Freeman, Thanh Nguyen, Gregory Bott, Jason Parton, Collin Francel,
- Abstract要約: アダルトサービスウェブサイト(ASWs)は性売買と結びついている。
性売買との戦いに関わる組織は、性的売買の潜在的な犠牲者を特定しようとする際に、APWデータを使用することが多い。
ASWデータを用いた従来の研究は、ASW広告テキストが広告のリンクに重要であることを示した。
- 参考スコア(独自算出の注目度): 2.893564834837899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sex trafficking refers to the use of force, fraud, or coercion to compel an individual to perform in commercial sex acts against their will. Adult service websites (ASWs) have and continue to be linked to sex trafficking, offering a platform for traffickers to advertise their victims. Thus, organizations involved in the fight against sex trafficking often use ASW data when attempting to identify potential sex trafficking victims. A critical challenge in transforming ASW data into actionable insight is text analysis. Previous research using ASW data has shown that ASW ad text is important for linking ads. However, working with this text is challenging due to its extensive use of emojis, poor grammar, and deliberate obfuscation to evade law enforcement scrutiny. We conduct a comprehensive study of language modeling approaches for this application area, including simple information retrieval methods, pre-trained transformers, and custom transformer models. We demonstrate that characteristics of ASW text data allow efficient custom transformer models to be trained with relatively small GPU resources and used efficiently for inference on consumer hardware. Our custom models outperform fine-tuned variants of well-known encoder-only transformer models, including BERT-base, RoBERTa, and ModernBERT, on accuracy, recall, F1 score, and ROC AUC. We demonstrate the use of our best-performing custom configuration on three tasks related to ASW data analysis: (i) decomposing the giant component in a graph representation of ASW data, (ii) clustering ASW ad text, and (iii) using the learned token embeddings to understand the use of emojis in the illicit context we study. The models we develop represent a significant advancement in ASW text analysis, which can be leveraged in a variety of downstream applications and research.
- Abstract(参考訳): セックス・トラクキング(英: Sex trafficking)とは、個人の意思に反して商業性行為を行うよう強制するために、強制、詐欺、強制の使用を指す。
アダルトサービスウェブサイト(ASWs)は、取引業者が被害者を宣伝するためのプラットフォームを提供し、性行為と結びついている。
したがって、性売買との戦いに関わる組織は、性的売買の潜在的な犠牲者を特定しようとする際に、APWデータを使用することが多い。
ASWデータを実用的な洞察に変換する上で重要な課題は、テキスト分析である。
ASWデータを用いた従来の研究は、ASW広告テキストが広告のリンクに重要であることを示した。
しかし、絵文字の多用、文法の貧弱、法執行機関の精査を避けるための故意の難読化などにより、この文章の扱いは困難である。
本稿では,この応用領域における言語モデリング手法の総合的研究を行い,簡単な情報検索手法,事前学習型トランスフォーマー,カスタムトランスフォーマーモデルについて述べる。
ASWテキストデータの特徴は、比較的小さなGPUリソースで効率的なカスタムトランスフォーマーモデルを訓練し、コンシューマーハードウェア上での推論に効率的に使用されることを実証する。
当社のカスタムモデルは、BERTベース、RoBERTa、ModernBERTなど、よく知られたエンコーダのみのトランスフォーマーモデルの精度、リコール、F1スコア、ROC AUCよりも優れている。
ASWデータ分析に関連する3つのタスクに対して、最高のパフォーマンスのカスタム構成を実演する。
i) ASWデータのグラフ表現において、巨大なコンポーネントを分解する。
(ii) ASW 広告テキストのクラスタリング
(3) 学習したトークン埋め込みを用いて, 研究対象の不正な文脈における絵文字の使用を理解する。
開発したモデルは,様々なダウンストリームアプリケーションや研究に活用可能な,ASWテキスト分析の大幅な進歩を示す。
関連論文リスト
- T2UE: Generating Unlearnable Examples from Text Descriptions [60.111026156038264]
Unlearnable Examples (UEs) は、無許可のモデルトレーニングに対する有望な対策として登場した。
textbfText-to-Unlearnable Example (T2UE)は,テキスト記述のみを用いてUEを生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-05T05:10:14Z) - Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - WADER at SemEval-2023 Task 9: A Weak-labelling framework for Data
augmentation in tExt Regression Tasks [4.102007186133394]
本稿では、WADERと呼ばれるテキスト回帰タスクにおいて、データ拡張のための新しい弱ラベル方式を提案する。
我々は、WADERを用いて、事前訓練された多言語言語モデルの性能をベンチマークし、データのバイアスを軽減するためにサンプリング技術を用いて分析する。
論文 参考訳(メタデータ) (2023-03-05T19:45:42Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。