論文の概要: Coverage-Aware Web Crawling for Domain-Specific Supplier Discovery via a Web--Knowledge--Web Pipeline
- arxiv url: http://arxiv.org/abs/2602.24262v2
- Date: Fri, 06 Mar 2026 05:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:43.779277
- Title: Coverage-Aware Web Crawling for Domain-Specific Supplier Discovery via a Web--Knowledge--Web Pipeline
- Title(参考訳): Web-Knowledge--Web Pipelineによるドメイン特化サプライヤ発見のためのカバレッジ対応Webクローリング
- Authors: Yijiashun Qi, Yijiazhen Qi, Tanmay Wagh,
- Abstract要約: 既存のビジネスデータベースは、かなりのカバレッジギャップに悩まされている。
我々はtextbfWeb-Knowledge-Web (W$to$K$to$W) パイプラインを提案する。
ドメイン固有のWebソースをクロールして、候補サプライヤエンティティを見つける。
構造化された知識をヘテロジニアスな知識グラフに統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying the full landscape of small and medium-sized enterprises (SMEs) in specialized industry sectors is critical for supply-chain resilience, yet existing business databases suffer from substantial coverage gaps -- particularly for sub-tier suppliers and firms in emerging niche markets. We propose a \textbf{Web--Knowledge--Web (W$\to$K$\to$W)} pipeline that iteratively (1)~crawls domain-specific web sources to discover candidate supplier entities, (2)~extracts and consolidates structured knowledge into a heterogeneous knowledge graph using domain-adapted few-shot LLM prompting, and (3)~uses the knowledge graph's topology and coverage signals to guide subsequent crawling toward under-represented regions of the supplier space. To quantify discovery completeness, we introduce a \textbf{coverage estimation framework} inspired by ecological species-richness estimators (Chao1, ACE) adapted for web-entity populations. Experiments on the semiconductor equipment manufacturing sector (NAICS 333242) demonstrate that the W$\to$K$\to$W pipeline achieves the highest precision (0.165) and F1 (0.123) among all methods while using only 144 pages -- 32\% fewer than the 213-page baseline budget -- building a knowledge graph of 664 entities and 542 relations with 100\% relation type-consistency.
- Abstract(参考訳): 特定産業セクターにおける中小企業の全体像を特定することは、サプライチェーンのレジリエンスにとって重要であるが、既存のビジネスデータベースは、特に新興ニッチ市場のサブ層サプライヤーや企業にとって、かなりのカバレッジギャップに悩まされている。
本稿では,(1)ドメイン固有のWebソースを反復的に拡張して候補サプライヤエンティティを探索し,(2)ドメイン適応型少ショットLPMプロンプトを用いて構造化知識をヘテロジニアスな知識グラフに抽出・集約し,(3)知識グラフのトポロジとカバレッジ信号を用いて,サプライヤ空間の非表現領域へのクローリングを誘導するパイプラインを提案する。
発見の完全度を定量化するために, 生態学的種多様性推定装置(Chao1, ACE)にインスパイアされた「textbf{coverage estimation framework」を導入する。
半導体機器製造セクター(NAICS 333242)の実験では、W$\to$K$\to$Wパイプラインは、たった144ページ(213ページのベースライン予算よりも32\%少ない)で最高精度(0.165)とF1(0.123)を達成した。
関連論文リスト
- Detecting High-Potential SMEs with Heterogeneous Graph Neural Networks [0.0]
中小企業は米国の事業の99.9%を占め、経済活動の44%を生んでいる。
我々は、SME-HGTという異種グラフ変換フレームワークを導入し、特定の公開データを用いて、どのフェーズIの受賞者がフェーズIIの資金調達に進むかを予測する。
論文 参考訳(メタデータ) (2026-02-23T08:35:55Z) - Towards Federated Clustering: A Client-wise Private Graph Aggregation Framework [57.04850867402913]
フェデレーションクラスタリングは、分散化されたラベルのないデータからパターンを抽出する課題に対処する。
本研究では,プライバシ保護のための知識共有媒体として,局所構造グラフを革新的に活用する新しいアルゴリズムSPP-FGCを提案する。
我々のフレームワークは最先端のパフォーマンスを実現し、認証可能なプライバシー保証を維持しつつ、フェデレーションベースラインよりも最大10%(NMI)のクラスタリング精度を向上させる。
論文 参考訳(メタデータ) (2025-11-14T03:05:22Z) - Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents [70.77400371166922]
深層研究ウェブエージェントは、洞察に富んだ研究のための知識を厳格に分析し集約する必要がある。
本研究では,Webエージェントの検証可能なトレーニングデータを構築するためのExplore to Evolveパラダイムを提案する。
オープンソースのエージェントフレームワークであるSmolAgentsをベースとして,教師付き微調整トラジェクトリを収集し,一連の基礎モデルを構築する。
論文 参考訳(メタデータ) (2025-10-16T08:37:42Z) - LABELING COPILOT: A Deep Research Agent for Automated Data Curation in Computer Vision [13.437102865245285]
本稿では,コンピュータビジョンのための初のデータキュレーションディープリサーチエージェントであるLabeling Copilotを紹介する。
大規模なマルチモーダル言語モデルを利用する中央オーケストレータエージェントは、多段階推論を使用して、3つのコア機能にまたがる特殊なツールを実行する。
論文 参考訳(メタデータ) (2025-09-26T17:55:26Z) - Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - Structural and Connectivity Patterns in the Maven Central Software Dependency Network [0.0]
Javaライブラリの最大のリポジトリの1つであるMaven Centralエコシステムを調査します。
我々は,その濃度集中度に基づいて,最高5000個の高連結人工物からなる試料を抽出した。
我々は,このグラフの包括的解析,計算次数分布,間性中心性,PageRank中心性,連結成分グラフ理論メトリクスについて検討した。
論文 参考訳(メタデータ) (2025-08-19T13:24:46Z) - AGENTICT$^2$S:Robust Text-to-SPARQL via Agentic Collaborative Reasoning over Heterogeneous Knowledge Graphs for the Circular Economy [42.73610751710192]
AgenticT$2$Sは、知識グラフを専門エージェントが管理するサブタスクに分解するフレームワークである。
2段階検証器は、構造的に無効で意味的に不特定なクエリを検出する。
実世界の循環経済の実験では、AgenticT$2$Sが実行精度を17.3%向上することを示した。
論文 参考訳(メタデータ) (2025-08-03T15:58:54Z) - SNaRe: Domain-aware Data Generation for Low-Resource Event Detection [77.32937742071475]
事象検出は、生物医学、法学、疫学のような高度に専門化された領域での推論を可能にするために重要である。
SNaReは、Scout、Narrator、Refinerの3つのコンポーネントから構成される、ドメイン対応の合成データ生成フレームワークである。
Scoutはラベルのないターゲットドメインデータからトリガーを抽出し、高品質なドメイン固有のトリガーリストをキュレートする。
これらのトリガに条件付けされたナレーターは、高品質なドメイン整列文を生成し、Refinerは追加のイベント参照を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:20:42Z) - Triplètoile: Extraction of Knowledge from Microblogging Text [7.848242781280095]
ソーシャルメディアプラットフォーム上でのマイクロブログ投稿からオープンドメインエンティティを含む知識グラフの抽出に適した情報抽出パイプラインを提案する。
我々のパイプラインは、単語の埋め込みに対する階層的クラスタリングを通じて、依存関係解析を活用し、教師なしの方法でエンティティ関係を分類する。
本稿では,デジタルトランスフォーメーションに関する1万ツイートのコーパスからセマンティック・トリプルを抽出し,生成した知識グラフを公開するユースケースを提案する。
論文 参考訳(メタデータ) (2024-08-27T09:35:13Z) - Building A Knowledge Graph to Enrich ChatGPT Responses in Manufacturing Service Discovery [0.5919433278490629]
本研究では,ボトムアップオントロジーと高度な機械学習モデルを統合し,製造サービス知識グラフを開発する手法を提案する。
知識グラフと学習グラフ埋め込みベクトルを利用して、デジタルサプライチェーンネットワーク内の複雑なクエリに対処する。
このアプローチは、グローバルな製造サービス知識ネットワークグラフを形成するために分散できる数百万のエンティティにスケーラブルである。
論文 参考訳(メタデータ) (2024-04-09T18:46:46Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach [115.91099791629104]
WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
論文 参考訳(メタデータ) (2021-08-05T06:28:32Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。