論文の概要: A Flexible and Scalable Approach for Collecting Wildlife Advertisements on the Web
- arxiv url: http://arxiv.org/abs/2407.18898v1
- Date: Fri, 26 Jul 2024 17:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 18:49:59.883332
- Title: A Flexible and Scalable Approach for Collecting Wildlife Advertisements on the Web
- Title(参考訳): Web上で野生生物を収集するフレキシブルでスケーラブルなアプローチ
- Authors: Juliana Barbosa, Sunandan Chakraborty, Juliana Freire,
- Abstract要約: 本稿では,野生生物のトラヒックデータを大規模に収集するための新しいアプローチを提案する。
本稿では,データ探索と取得のためのスコープ付きクローラと,関連する広告を特定するための基礎モデルと機械学習分類器を組み合わせたデータ収集パイプラインを提案する。
私たちはこのパイプラインを使って作成したデータセットについて述べています。
- 参考スコア(独自算出の注目度): 8.349901826932253
- License:
- Abstract: Wildlife traffickers are increasingly carrying out their activities in cyberspace. As they advertise and sell wildlife products in online marketplaces, they leave digital traces of their activity. This creates a new opportunity: by analyzing these traces, we can obtain insights into how trafficking networks work as well as how they can be disrupted. However, collecting such information is difficult. Online marketplaces sell a very large number of products and identifying ads that actually involve wildlife is a complex task that is hard to automate. Furthermore, given that the volume of data is staggering, we need scalable mechanisms to acquire, filter, and store the ads, as well as to make them available for analysis. In this paper, we present a new approach to collect wildlife trafficking data at scale. We propose a data collection pipeline that combines scoped crawlers for data discovery and acquisition with foundational models and machine learning classifiers to identify relevant ads. We describe a dataset we created using this pipeline which is, to the best of our knowledge, the largest of its kind: it contains almost a million ads obtained from 41 marketplaces, covering 235 species and 20 languages. The source code is publicly available at \url{https://github.com/VIDA-NYU/wildlife_pipeline}.
- Abstract(参考訳): 野生生物の密売業者はサイバースペースでの活動が増えている。
オンラインマーケットプレースで野生生物製品の宣伝と販売を行う中で、彼らは彼らの活動のデジタル的痕跡を残している。
これらのトレースを分析することで、トラフィックネットワークがどのように機能し、どのように破壊されるかについての洞察を得ることができるのです。
しかし、そのような情報を集めることは困難である。
オンラインマーケットプレースは非常に多くの製品を販売しており、実際に野生生物に関わる広告を特定することは、自動化が難しい複雑な作業である。
さらに、データの量が停滞していることを考えると、広告を取得し、フィルタリングし、保存し、分析に利用できるようにするためのスケーラブルなメカニズムが必要です。
本稿では,野生生物のトラヒックデータを大規模に収集するための新しいアプローチを提案する。
本稿では,データ探索と取得のためのスコープ付きクローラと,関連する広告を特定するための基礎モデルと機械学習分類器を組み合わせたデータ収集パイプラインを提案する。
私たちはこのパイプラインを使って作成したデータセットについて、私たちの知る限りでは、そのタイプの最大のもの、すなわち、41のマーケットプレースから得られた約100万の広告が含まれていて、235の種と20の言語をカバーしています。
ソースコードは \url{https://github.com/VIDA-NYU/wildlife_pipeline} で公開されている。
関連論文リスト
- Wildlife Product Trading in Online Social Networks: A Case Study on Ivory-Related Product Sales Promotion Posts [14.275364214480714]
本稿では,オンラインソーシャルネットワークにおける野生生物製品販売促進行動の検出と認識の課題について論じる。
我々は、疑わしい野生生物がポストやアカウントを売っているのを自動的に識別するフレームワークを構築している。
我々は、これらの行動の性質に関する詳細な知見を提供し、違法な野生生物製品取引の理解と対策に貴重な情報を提供しています。
論文 参考訳(メタデータ) (2024-09-25T06:57:43Z) - OpenAnimalTracks: A Dataset for Animal Track Recognition [2.3020018305241337]
動物足跡の自動分類と検出を容易にするために設計された,最初の公開ラベル付きデータセットであるOpenAnimalTracksデータセットを紹介する。
代表分類器と検出モデルを用いた自動フットプリント識別の可能性を示す。
われわれのデータセットは、動物の自動追跡技術の道を切り開き、生物多様性の保護と管理の能力を高めることを願っている。
論文 参考訳(メタデータ) (2024-06-14T00:37:17Z) - WildlifeDatasets: An open-source toolkit for animal re-identification [0.0]
WildlifeDatasetsは、生態学者とコンピュータビジョン/機械学習研究者のためのオープンソースのツールキットである。
WildlifeDatasetsはPythonで書かれており、公開されている野生生物データセットに簡単にアクセスできる。
我々は,MegaDescriptorという多種多様な種において,個人を再同定するための最初の基礎モデルを提供する。
論文 参考訳(メタデータ) (2023-11-15T17:08:09Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Curator: Creating Large-Scale Curated Labelled Datasets using
Self-Supervised Learning [0.38233569758620045]
コードなしのエンドツーエンドパイプラインであるCuratorは、ラベル付きデータセットを徹底的にキュレートするのに要する時間を劇的に短縮する。
キュレーターは、自己スーパービジョン、スケーラブルな近接探索、画像表現の学習と識別のためのアクティブラーニングを組み合わせることで、大量の未学習データを検索することができる。
論文 参考訳(メタデータ) (2022-12-28T21:22:57Z) - Towards automatic detection of wildlife trade using machine vision
models [0.0]
現在、取引の重要な部分はインターネット、特にデジタルマーケットプレースやソーシャルメディアで行われている。
そこで我々は,市販のエキゾチックなペットのイメージを自動的に識別する目的で,Deep Neural Networksに基づくマシンビジョンモデルを開発した。
5つの異なるアーキテクチャ、3つのトレーニング方法、2つのタイプのデータセットを組み合わせた24のニューラルネットモデルをトレーニングしました。
論文 参考訳(メタデータ) (2022-05-23T14:11:16Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。