論文の概要: Set2Box: Similarity Preserving Representation Learning of Sets
- arxiv url: http://arxiv.org/abs/2210.03282v1
- Date: Fri, 7 Oct 2022 02:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 15:10:21.423583
- Title: Set2Box: Similarity Preserving Representation Learning of Sets
- Title(参考訳): Set2Box: 集合の表現学習を保存する類似性
- Authors: Geon Lee, Chanyoung Park, Kijung Shin
- Abstract要約: 本研究では,集合の圧縮表現のための学習ベースアプローチであるSet2Boxを提案する。
また、より簡潔だがより正確な集合のボックス表現をもたらすSet2Box+を設計します。
実世界の8つのデータセットの実験を通して、Set2Box+は (a) 精度: 最大40.8倍の小さい推定誤差を達成し、また、 (b) 簡潔さ: 96.8倍の精度の表現と類似した推定誤差、 (c) ヴァーサタイル: 各集合の1つの表現から4つの設定相似測度を推定できるようにする。
- 参考スコア(独自算出の注目度): 18.85308805841525
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sets have been used for modeling various types of objects (e.g., a document
as the set of keywords in it and a customer as the set of the items that she
has purchased). Measuring similarity (e.g., Jaccard Index) between sets has
been a key building block of a wide range of applications, including,
plagiarism detection, recommendation, and graph compression. However, as sets
have grown in numbers and sizes, the computational cost and storage required
for set similarity computation have become substantial, and this has led to the
development of hashing and sketching based solutions. In this work, we propose
Set2Box, a learning-based approach for compressed representations of sets from
which various similarity measures can be estimated accurately in constant time.
The key idea is to represent sets as boxes to precisely capture overlaps of
sets. Additionally, based on the proposed box quantization scheme, we design
Set2Box+, which yields more concise but more accurate box representations of
sets. Through extensive experiments on 8 real-world datasets, we show that,
compared to baseline approaches, Set2Box+ is (a) Accurate: achieving up to
40.8X smaller estimation error while requiring 60% fewer bits to encode sets,
(b) Concise: yielding up to 96.8X more concise representations with similar
estimation error, and (c) Versatile: enabling the estimation of four
set-similarity measures from a single representation of each set.
- Abstract(参考訳): 様々な種類のオブジェクト(例えば、その中のキーワードのセットとしてのドキュメントと、彼女が購入したアイテムのセットとしての顧客)のモデリングに使用される。
セット間の類似度(jaccard indexなど)を測定することは、盗作の検出、推奨、グラフ圧縮など、幅広いアプリケーションの主要なビルディングブロックである。
しかし、集合の数やサイズが大きくなるにつれて、集合の類似性計算に必要な計算コストと記憶量が大幅に増加し、これはハッシュとスケッチに基づくソリューションの開発につながった。
本稿では,様々な類似度測度を一定時間内に正確に推定できる集合の圧縮表現のための学習ベースアプローチである set2box を提案する。
鍵となるアイデアは、セットのオーバーラップを正確にキャプチャするボックスとしてセットを表現することである。
さらに,提案したボックス量子化方式に基づいて,より簡潔かつ高精度な集合のボックス表現を提供するSet2Box+を設計する。
8つの実世界のデータセットに関する広範な実験を通じて、ベースラインアプローチと比較して、set2box+は、
(a)精度:最大40.8倍小さい推定誤差を達成し、60%少ないビットで集合を符号化できる。
(b)簡潔さ:同様の推定誤差を伴う96.8倍の簡潔な表現、及び
(c)Versatile: 各集合の1つの表現から4つの集合相似測度を推定できる。
関連論文リスト
- Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - FaceCoresetNet: Differentiable Coresets for Face Set Recognition [16.879093388124964]
識別ディスクリプタは、所定の集合からの情報を集約する際の2つのポリシーのバランスをとる。
この作業は、微分可能なコアセット選択問題として、顔セット表現をフレーム化する。
我々は、IJB-BおよびIJB-Cデータセットに顔認証を設定するために、新しいSOTAを設定した。
論文 参考訳(メタデータ) (2023-08-27T11:38:42Z) - Improving Cross-Modal Retrieval with Set of Diverse Embeddings [19.365974066256026]
画像とテキストのモダリティを横断するクロスモーダル検索は、その固有の曖昧さのために難しい課題である。
この問題の解決策として、セットベースの埋め込みが研究されている。
本稿では,従来の2つの側面において異なる,新しい集合ベースの埋め込み手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T05:59:23Z) - GBRS: An Unified Model of Pawlak Rough Set and Neighborhood Rough Set [67.17936132922955]
ポーラク粗集合と近傍粗集合は、最も一般的な2つの粗集合理論モデルである。
本稿では,グラニュラー・ボール・コンピューティングに基づくグラニュラーボール・ラフセットを提案する。
論文 参考訳(メタデータ) (2022-01-10T14:05:02Z) - SLOSH: Set LOcality Sensitive Hashing via Sliced-Wasserstein Embeddings [18.916058638077274]
本稿では,ANN (Non-parametric and data-independent learning from set-structured data using almost near neighbor (ANN) solutions。
Sliced-Wasserstein set embedding as a computerly efficient "set-2-vector" mechanism that possible downstream ANN。
本稿では,SLOSH (Set-LOcality Sensitive Hashing) と呼ばれるアルゴリズムの有効性を,様々なデータセットで示す。
論文 参考訳(メタデータ) (2021-12-11T00:10:05Z) - Mini-Batch Consistent Slot Set Encoder for Scalable Set Encoding [50.61114177411961]
大規模のミニバッチセットエンコーディングに必要な、Mini-Batch Consistencyと呼ばれる新しいプロパティを紹介します。
本稿では,設定要素に対してミニバッチ処理が可能で,より多くのデータが到着するにつれて,セット表現を更新できる,スケーラブルで効率的なセット符号化機構を提案する。
論文 参考訳(メタデータ) (2021-03-02T10:10:41Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Set Distribution Networks: a Generative Model for Sets of Images [22.405670277339023]
自動エンコードと自由にセットを生成するフレームワークであるSet Distribution Networks(SDN)を紹介する。
ベンチマークデータセットの入力の健全な属性を保存するイメージセットを,SDNが再構築可能であることを示す。
本稿では,SDN が生成した画像の品質を評価する新しい手法として,事前学習した3次元再構成ネットワークと顔検証ネットワークを用いて,SDN が生成した画像集合について検討する。
論文 参考訳(メタデータ) (2020-06-18T17:38:56Z) - Rethinking Object Detection in Retail Stores [55.359582952686175]
そこで我々はLocountと略される新しいタスク、同時にオブジェクトのローカライゼーションとカウントを提案する。
Locountは、関心のあるオブジェクトのグループをインスタンス数でローカライズするアルゴリズムを必要とする。
大規模オブジェクトのローカライズと数えるデータセットを小売店で収集する。
論文 参考訳(メタデータ) (2020-03-18T14:01:54Z) - Learn to Predict Sets Using Feed-Forward Neural Networks [63.91494644881925]
本稿では、ディープフィードフォワードニューラルネットワークを用いた設定予測の課題に対処する。
未知の置換と基数を持つ集合を予測するための新しい手法を提案する。
関連視覚問題に対する集合定式化の有効性を実証する。
論文 参考訳(メタデータ) (2020-01-30T01:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。