論文の概要: A Hierarchical Approach to Scaling Batch Active Search Over Structured
Data
- arxiv url: http://arxiv.org/abs/2007.10263v1
- Date: Mon, 20 Jul 2020 16:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:12:21.746838
- Title: A Hierarchical Approach to Scaling Batch Active Search Over Structured
Data
- Title(参考訳): 構造化データに対するバッチアクティブ検索の階層的アプローチ
- Authors: Vivek Myers and Peyton Greenside
- Abstract要約: 本稿では,能動探索を大規模なバッチサイズに拡張するために,帯域幅アルゴリズムに基づく汎用階層型フレームワークを提案する。
HBBSの応用は、大規模なバッチ実験が研究プロセスに欠かせない現代生物学に重点を置いている。
- 参考スコア(独自算出の注目度): 0.5076419064097732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active search is the process of identifying high-value data points in a large
and often high-dimensional parameter space that can be expensive to evaluate.
Traditional active search techniques like Bayesian optimization trade off
exploration and exploitation over consecutive evaluations, and have
historically focused on single or small (<5) numbers of examples evaluated per
round. As modern data sets grow, so does the need to scale active search to
large data sets and batch sizes. In this paper, we present a general
hierarchical framework based on bandit algorithms to scale active search to
large batch sizes by maximizing information derived from the unique structure
of each dataset. Our hierarchical framework, Hierarchical Batch Bandit Search
(HBBS), strategically distributes batch selection across a learned embedding
space by facilitating wide exploration of different structural elements within
a dataset. We focus our application of HBBS on modern biology, where large
batch experimentation is often fundamental to the research process, and
demonstrate batch design of biological sequences (protein and DNA). We also
present a new Gym environment to easily simulate diverse biological sequences
and to enable more comprehensive evaluation of active search methods across
heterogeneous data sets. The HBBS framework improves upon standard performance,
wall-clock, and scalability benchmarks for batch search by using a broad
exploration strategy across coarse partitions and fine-grained exploitation
within each partition of structured data.
- Abstract(参考訳): アクティブサーチ(active search)は、大きくてしばしば高次元のパラメータ空間において、高い値のデータポイントを識別するプロセスである。
ベイズ最適化のような伝統的な活発な探索手法は、連続的な評価よりも探索と搾取をトレードオフし、歴史的にラウンド毎に評価される単一または小さな例(5)に焦点を合わせてきた。
現代のデータセットが大きくなるにつれて、アクティブ検索を大規模なデータセットやバッチサイズにスケールする必要がある。
本稿では,各データセットのユニークな構造から得られる情報を最大化することにより,アクティブサーチを大規模バッチサイズに拡張するbanditアルゴリズムに基づく汎用階層型フレームワークを提案する。
階層的バッチ帯域探索(Hierarchical Batch Bandit Search, HBBS)は、データセット内のさまざまな構造要素の広範な探索を容易にすることによって、学習された埋め込み空間にバッチ選択を戦略的に分散します。
hbbsの応用は、大規模なバッチ実験が研究プロセスの基本となる現代生物学に焦点をあて、生物配列(タンパク質とdna)のバッチ設計を実証する。
また、多様な生物配列を容易にシミュレートし、異種データセット間の能動探索手法をより包括的に評価できる新しいGym環境を提案する。
hbbsフレームワークは、粗いパーティションにまたがる広範な探索戦略と構造化データの各パーティション内のきめ細かいエクスプロイトを使用することで、バッチ検索の標準性能、壁時計、スケーラビリティのベンチマークを改善します。
関連論文リスト
- FOR-instance: a UAV laser scanning benchmark dataset for semantic and
instance segmentation of individual trees [0.06597195879147556]
FOR-instanceデータセットは、5つのキュレートされ、ML対応のUAVベースのレーザースキャンデータコレクションから構成される。
データセットは開発サブセットとテストサブセットに分割され、メソッドの進歩と評価が可能になる。
乳房高さデータへの直径の挿入は、古典的な木の変数の測定にその有用性を広げる。
論文 参考訳(メタデータ) (2023-09-03T22:08:29Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Towards Personalized Preprocessing Pipeline Search [52.59156206880384]
ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。
本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。
ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T05:45:05Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - Frequent Itemset-driven Search for Finding Minimum Node Separators in
Complex Networks [61.2383572324176]
本稿では,データマイニングにおける頻繁なアイテムセットマイニングの概念をよく知られたメメティック検索フレームワークに統合する,頻繁なアイテムセット駆動探索手法を提案する。
頻繁なアイテムセット組換え演算子を反復的に使用して、高品質なソリューションで頻繁に発生するアイテムセットに基づいた有望な子孫ソリューションを生成する。
特に、29個の新しい上界を発見し、以前の18個の最もよく知られた境界と一致する。
論文 参考訳(メタデータ) (2022-01-18T11:16:40Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Multidimensional Assignment Problem for multipartite entity resolution [69.48568967931608]
Multipartiteエンティティ解決は、複数のデータセットから1つのエンティティにレコードを統合することを目的としている。
代入問題を解くために、グリーディアルゴリズムと大規模近傍探索という2つの手順を適用する。
データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。
論文 参考訳(メタデータ) (2021-12-06T20:34:55Z) - Structural Textile Pattern Recognition and Processing Based on
Hypergraphs [2.4963790083110426]
織物アーカイブの構造に基づく類似の織物パターンを認識するアプローチを紹介します。
まず,ハイパーグラフを用いて織物構造を表現し,これらのグラフから織物パターンを記述するk-neighbourhoodの多重集合を抽出する。
結果の多重集合は、様々な距離測度と様々なクラスタリングアルゴリズムを用いてクラスタ化される。
論文 参考訳(メタデータ) (2021-03-21T00:44:40Z) - Feature Ranking for Semi-supervised Learning [3.1380888953704984]
特徴ランクの半教師付き学習を提案する。
我々の知る限りでは、半教師付き構造的出力予測コンテキストにおける特徴ランク付けのタスクを取り扱うのはこれが初めてである。
ランダムフォレストは分類のようなタスクでベスト、回帰のようなタスクではエクストラPCTがベストです。
論文 参考訳(メタデータ) (2020-08-10T07:50:50Z) - Learning from Data to Speed-up Sorted Table Search Procedures:
Methodology and Practical Guidelines [0.0]
機械学習技術の拡張が、このようなスピードアップにどのような貢献をできるかを調査する。
我々は、CPUおよびGPUコンピューティングの両方を考慮して、後者が前者に対して利益を上げることができるシナリオを特徴づける。
実際、ここで提案した学習表検索手順を自然に補完するアルゴリズム的パラダイムを定式化し、既知の学習表検索手順の大部分を、単純な線形回帰を近似した「学習フェーズ」を持つものとして特徴付ける。
論文 参考訳(メタデータ) (2020-07-20T16:26:54Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。