論文の概要: A Cost-Effective LLM-based Approach to Identify Wildlife Trafficking in Online Marketplaces
- arxiv url: http://arxiv.org/abs/2504.21211v1
- Date: Tue, 29 Apr 2025 22:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 23:07:07.781888
- Title: A Cost-Effective LLM-based Approach to Identify Wildlife Trafficking in Online Marketplaces
- Title(参考訳): オンラインマーケットプレースにおける野生生物のトラヒック識別のためのコスト効果型LCMアプローチ
- Authors: Juliana Barbosa, Ulhas Gondhali, Gohar Petrossian, Kinshuk Sharma, Sunandan Chakraborty, Jennifer Jacquet, Juliana Freire,
- Abstract要約: 電子商取引プラットフォームは、絶滅危惧種や絶滅危惧種の野生生物に圧力をかけながら、野生生物製品を販売しやすくしている。
犯罪者は野生生物の製品をオンラインで販売するので、彼らの活動のデジタル痕跡を残して、トラフィック活動に関する洞察を提供する。
課題は、これらの痕跡を見つけることだ。オンラインマーケットプレースでは、多数の商品の広告を公開し、野生生物関連製品の広告を識別することは、干し草の山の中に針を見つけるようなものだ。
そこで本研究では,LSMを用いてデータサンプルの擬似ラベルを生成するコスト効率のよい手法を提案し,それらのラベルを用いて特殊な分類モデルを作成する。
- 参考スコア(独自算出の注目度): 6.705519964346269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wildlife trafficking remains a critical global issue, significantly impacting biodiversity, ecological stability, and public health. Despite efforts to combat this illicit trade, the rise of e-commerce platforms has made it easier to sell wildlife products, putting new pressure on wild populations of endangered and threatened species. The use of these platforms also opens a new opportunity: as criminals sell wildlife products online, they leave digital traces of their activity that can provide insights into trafficking activities as well as how they can be disrupted. The challenge lies in finding these traces. Online marketplaces publish ads for a plethora of products, and identifying ads for wildlife-related products is like finding a needle in a haystack. Learning classifiers can automate ad identification, but creating them requires costly, time-consuming data labeling that hinders support for diverse ads and research questions. This paper addresses a critical challenge in the data science pipeline for wildlife trafficking analytics: generating quality labeled data for classifiers that select relevant data. While large language models (LLMs) can directly label advertisements, doing so at scale is prohibitively expensive. We propose a cost-effective strategy that leverages LLMs to generate pseudo labels for a small sample of the data and uses these labels to create specialized classification models. Our novel method automatically gathers diverse and representative samples to be labeled while minimizing the labeling costs. Our experimental evaluation shows that our classifiers achieve up to 95% F1 score, outperforming LLMs at a lower cost. We present real use cases that demonstrate the effectiveness of our approach in enabling analyses of different aspects of wildlife trafficking.
- Abstract(参考訳): 野生生物の売買は依然として重要な世界的な問題であり、生物多様性、生態学的安定性、公衆衛生に大きな影響を与えている。
この違法な貿易に対抗する努力にもかかわらず、Eコマースプラットフォームの普及により野生生物製品の販売が容易になり、絶滅危惧種や絶滅危惧種の野生個体に新たな圧力がかかっている。
犯罪者は野生生物の製品をオンラインで売っているので、彼らの活動のデジタル的痕跡を残して、密売活動や破壊の仕方に関する洞察を提供する。
課題は、これらのトレースを見つけることだ。
オンラインマーケットプレースは、多くの製品の広告を公開し、野生生物関連製品の広告を識別することは、干し草の山の中に針を見つけるようなものだ。
学習型分類器は、広告の識別を自動化することができるが、それらを作成するには、さまざまな広告や研究質問のサポートを妨げる費用がかかる。
本稿では,野生生物の売買分析におけるデータサイエンスパイプラインにおける重要な課題として,関連データを選択する分類器のラベル付き品質データを生成することを挙げる。
大きな言語モデル(LLM)は直接広告にラベルを付けることができるが、大規模に行うことは違法に高価である。
そこで本稿では,LSMを用いてデータサンプルの擬似ラベルを生成するコスト効率のよい手法を提案し,それらのラベルを用いて特殊な分類モデルを作成する。
本手法は,ラベル付けコストを最小化しつつ,ラベル付け対象の多種多様なサンプルを自動的に収集する。
実験の結果,分類器は最大95%のF1スコアを達成でき,LCMよりも低コストで性能を向上できることがわかった。
野生生物の密貿易のさまざまな側面の分析を可能にするために,本手法の有効性を示す実例を提示する。
関連論文リスト
- Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Wildlife Product Trading in Online Social Networks: A Case Study on Ivory-Related Product Sales Promotion Posts [14.275364214480714]
本稿では,オンラインソーシャルネットワークにおける野生生物製品販売促進行動の検出と認識の課題について論じる。
我々は、疑わしい野生生物がポストやアカウントを売っているのを自動的に識別するフレームワークを構築している。
我々は、これらの行動の性質に関する詳細な知見を提供し、違法な野生生物製品取引の理解と対策に貴重な情報を提供しています。
論文 参考訳(メタデータ) (2024-09-25T06:57:43Z) - A Flexible and Scalable Approach for Collecting Wildlife Advertisements on the Web [8.349901826932253]
本稿では,野生生物のトラヒックデータを大規模に収集するための新しいアプローチを提案する。
本稿では,データ探索と取得のためのスコープ付きクローラと,関連する広告を特定するための基礎モデルと機械学習分類器を組み合わせたデータ収集パイプラインを提案する。
私たちはこのパイプラインを使って作成したデータセットについて述べています。
論文 参考訳(メタデータ) (2024-07-26T17:51:41Z) - Automating the Analysis of Public Saliency and Attitudes towards Biodiversity from Digital Media [0.5175667614430115]
野生生物に対する公衆の態度を測定することは、自然との関係に重要な洞察を与え、グローバル生物多様性フレームワークの目標に向けた進捗を監視するのに役立ちます。
我々は,現代の自然言語処理(NLP)ツールを活用することで,これらの課題を克服することを目指している。
本稿では,検索語生成の改善のための民生分類法を導入し,用語頻度-逆文書頻度ベクトルのコサイン類似性を利用して,シンジケートされた記事のフィルタリングを行う。
また、教師なし学習を用いて共通のトピックを明らかにする関連フィルタリングパイプラインを導入し、続いてオープンソースのLarge Language Model(LLM)を用いてトピックをニュース記事のタイトルに割り当てる。
論文 参考訳(メタデータ) (2024-05-02T08:28:25Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - HQP: A Human-Annotated Dataset for Detecting Online Propaganda [18.837597864085865]
高品質なラベルを用いたオンラインプロパガンダ検出のための新しいデータセットHQPを提案する。
我々は、最先端の言語モデルは、弱いラベルで訓練された場合、オンラインプロパガンダを検出するのに失敗していることを示す。
高品質なラベルの小さなサンプルを用いた素早い学習は、依然として妥当な性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-04-28T15:42:55Z) - ScarceNet: Animal Pose Estimation with Scarce Annotations [74.48263583706712]
ScarceNetは、ラベルのない画像のための人工ラベルを生成するための擬似ラベルベースのアプローチである。
我々は、既存の半教師付きアプローチを大きなマージンで上回る、挑戦的なAP-10Kデータセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-03-27T09:15:53Z) - Scrutinizing Shipment Records To Thwart Illegal Timber Trade [14.559268536152926]
木材・森林製品産業における 灰色と黒色の市場活動は 木材が収穫された国に限らず 世界のサプライチェーン全体に広がっています
既存のアプローチは、大規模な貿易データへの適用性において、ある種の欠点に悩まされている。
本稿では,大規模な異種データに適用可能なコントラスト学習に基づく異種異常検出(CHAD)を提案する。
論文 参考訳(メタデータ) (2022-07-31T18:54:52Z) - Adapting to Online Label Shift with Provable Guarantees [137.89382409682233]
オンラインラベルシフトの問題を定式化し,検討する。
非定常性と監督の欠如は、この問題に取り組むことを困難にしている。
我々のアルゴリズムは最適な動的後悔を享受しており、性能が透かしの性質と競合していることを示している。
論文 参考訳(メタデータ) (2022-07-05T15:43:14Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。