論文の概要: Tree-based Focused Web Crawling with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.07620v1
- Date: Sun, 12 Dec 2021 00:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 09:44:45.894875
- Title: Tree-based Focused Web Crawling with Reinforcement Learning
- Title(参考訳): 強化学習による木型集中型Webクローリング
- Authors: Andreas Kontogiannis, Dimitrios Kelesis, Vasilis Pollatos, Georgios
Paliouras and George Giannakopoulos
- Abstract要約: 集中型クローラは、ターゲットトピックに関連するWebページを可能な限り多く発見することを目的としており、無関係なページは避けている。
集中型クローリングのためのエンドツーエンドのRL駆動フレームワークであるTRESを提案する。
TRESは収穫率を少なくとも58%上回り、ドメイン内では競争力のある結果が得られている。
- 参考スコア(独自算出の注目度): 0.2624902795082451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A focused crawler aims at discovering as many web pages relevant to a target
topic as possible, while avoiding irrelevant ones; i.e. maximizing the harvest
rate. Reinforcement Learning (RL) has been utilized to optimize the crawling
process, yet it deals with huge state and action spaces, which can constitute a
serious challenge. In this paper, we propose TRES, an end-to-end RL-empowered
framework for focused crawling. Unlike other approaches, we properly model a
crawling environment as a Markov Decision Process, by representing the state as
a subgraph of the Web and actions as its expansion edges. TRES adopts a keyword
expansion strategy based on the cosine similarity of keyword embeddings. To
learn a reward function, we propose a deep neural network, called KwBiLSTM,
leveraging the discovered keywords. To reduce the time complexity of selecting
a best action, we propose Tree-Frontier, a two-fold decision tree, which also
speeds up training by discretizing the state and action spaces. Experimentally,
we show that TRES outperforms state-of-the-art methods in terms of harvest rate
by at least 58%, while it has competitive results in the domain maximization.
Our implementation code can be found on https://github.com/ddaedalus/TRES.
- Abstract(参考訳): 集中クローラは、ターゲットトピックに関連するページを可能な限り多く発見することを目的としており、無関係なページ、すなわち収穫率の最大化を回避している。
強化学習(rl)はクローリングプロセスを最適化するために利用されてきたが、巨大な状態とアクション空間を扱うため、深刻な課題となる可能性がある。
本稿では,集中型クローリングのためのエンドツーエンドのRL駆動フレームワークであるTRESを提案する。
他のアプローチとは異なり、私たちはクローリング環境をマルコフ決定プロセスとして適切にモデル化し、状態はWebのサブグラフとして表現し、アクションはその拡張エッジとして表現する。
TRESはキーワード埋め込みのコサイン類似性に基づくキーワード拡張戦略を採用している。
報酬関数を学習するために,検出したキーワードを活用する,KwBiLSTMと呼ばれるディープニューラルネットワークを提案する。
ベストアクションの選択の時間的複雑さを軽減するために,2次元決定木であるtree-frontierを提案し,状態とアクション空間を区別することでトレーニングを高速化する。
実験により,tresは収穫率の面では最先端の手法を58%以上上回り,領域最大化に競争的な結果をもたらすことを示した。
実装コードはhttps://github.com/ddaedalus/TRES.comで確認できます。
関連論文リスト
- Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Sensitivity-Aware Mixed-Precision Quantization and Width Optimization of Deep Neural Networks Through Cluster-Based Tree-Structured Parzen Estimation [4.748931281307333]
本稿では,個々のニューラルネットワーク層に対して最適なビット幅と層幅を自動的に選択する革新的な探索機構を提案する。
これにより、ディープニューラルネットワークの効率が著しく向上する。
論文 参考訳(メタデータ) (2023-08-12T00:16:51Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Boosting Tail Neural Network for Realtime Custom Keyword Spotting [2.5137859989323537]
本稿では,リアルタイムカスタムキーワードスポッティング(RCKS)の性能向上を目的としたBoosting Tail Neural Network(BTNN)を提案する。
脳科学にインスパイアされた多くの機械学習アルゴリズムは、弱い分類器を使って困難な問題を解決するために開発された。
論文 参考訳(メタデータ) (2022-05-24T13:26:39Z) - CATCH: Context-based Meta Reinforcement Learning for Transferrable
Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。
メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。
また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文 参考訳(メタデータ) (2020-07-18T09:35:53Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。