論文の概要: ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems
- arxiv url: http://arxiv.org/abs/2502.16077v1
- Date: Sat, 22 Feb 2025 04:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:51:38.995959
- Title: ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems
- Title(参考訳): ESANS:大規模検索システムにおける有効かつ意味論的ネガティブサンプリング
- Authors: Haibo Xing, Kanefumi Matsuyama, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng,
- Abstract要約: 検索段階において、古典的な埋め込みに基づく検索手法は、性能と効率を両立させる効果的な負のサンプリング手法に依存している。
我々は,エフェクト・センス補間戦略 (EDIS) とマルチモーダル・セマンティック・アウェア・クラスタリング (MSAC) の2つの重要なコンポーネントを統合した,エフェクト・セマンティック・ネガティブ・サンプリング (ESANS) を提案する。
- 参考スコア(独自算出の注目度): 7.897183317096681
- License:
- Abstract: Industrial recommendation systems typically involve a two-stage process: retrieval and ranking, which aims to match users with millions of items. In the retrieval stage, classic embedding-based retrieval (EBR) methods depend on effective negative sampling techniques to enhance both performance and efficiency. However, existing techniques often suffer from false negatives, high cost for ensuring sampling quality and semantic information deficiency. To address these limitations, we propose Effective and Semantic-Aware Negative Sampling (ESANS), which integrates two key components: Effective Dense Interpolation Strategy (EDIS) and Multimodal Semantic-Aware Clustering (MSAC). EDIS generates virtual samples within the low-dimensional embedding space to improve the diversity and density of the sampling distribution while minimizing computational costs. MSAC refines the negative sampling distribution by hierarchically clustering item representations based on multimodal information (visual, textual, behavioral), ensuring semantic consistency and reducing false negatives. Extensive offline and online experiments demonstrate the superior efficiency and performance of ESANS.
- Abstract(参考訳): 産業レコメンデーションシステムは通常、検索とランキングという2段階のプロセスを含む。
検索段階では,従来の埋め込み型検索(EBR)手法は,有効負サンプリング技術に依存し,性能と効率の両立を図っている。
しかし、既存の手法は、しばしば偽陰性、サンプリング品質とセマンティック情報不足の確保のための高いコストに悩まされる。
これらの制約に対処するため、Effective Dense Interpolation Strategy(EDIS)とMultimodal Semantic-Aware Clustering(MSAC)の2つの主要なコンポーネントを統合するEffective and Semantic-Aware Negative Sampling(ESANS)を提案する。
EDISは低次元埋め込み空間内で仮想サンプルを生成し、計算コストを最小化しながらサンプリング分布の多様性と密度を向上させる。
MSACは、マルチモーダル情報(視覚的、テキスト的、行動的)に基づいてアイテム表現を階層的にクラスタリングし、セマンティックな一貫性を確保し、偽陰性を減らすことによって、負のサンプリング分布を洗練する。
大規模なオフラインおよびオンライン実験は、ESANSの優れた効率と性能を示している。
関連論文リスト
- Diversified Sampling Improves Scaling LLM inference [31.18762591875725]
DivSamplingは、候補解の多様性を高めるために設計された、斬新で多用途なサンプリング技術である。
理論解析により, 微妙な仮定の下では, 種々のプロンプトから発生する応答の誤り率は, 定常プロンプトによる応答よりも有意に低いことが示された。
論文 参考訳(メタデータ) (2025-02-16T07:37:58Z) - SyNeg: LLM-Driven Synthetic Hard-Negatives for Dense Retrieval [45.971786380884126]
Dense Search (DR) の性能は, 陰性サンプリングの品質に大きく影響される。
大規模言語モデル(LLM)の最近の進歩は、文脈的にリッチで多様な負のサンプルを生成することで革新的なソリューションを提供する。
本研究では,LLMを用いて高品質な硬質負のサンプルを合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:49:00Z) - Scalable and Effective Negative Sample Generation for Hyperedge Prediction [55.9298019975967]
ハイパーエッジ予測は、Webベースのアプリケーションにおける複雑なマルチエンタリティ相互作用を理解するために不可欠である。
従来の手法では、正と負のインスタンスの不均衡により、高品質な負のサンプルを生成するのが困難であることが多い。
本稿では,これらの課題に対処するために拡散モデルを利用するハイパーエッジ予測(SEHP)フレームワークのスケーラブルで効果的な負のサンプル生成について述べる。
論文 参考訳(メタデータ) (2024-11-19T09:16:25Z) - Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。
FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2024-07-02T08:38:31Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Enhancing Vision-Language Few-Shot Adaptation with Negative Learning [11.545127156146368]
我々は,タスク固有の知識をより効率的に活用するための,シンプルで効果的な否定的学習手法SimNLを提案する。
そこで本研究では,雑音を緩和するために,プラグアンドプレイによる数発のインスタンス再重み付け手法を提案する。
提案したSimNLは,少数ショット学習とドメイン一般化の両タスクにおいて,既存の最先端手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-19T17:59:39Z) - Test-Time Distribution Normalization for Contrastively Learned
Vision-language Models [39.66329310098645]
CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。
本稿では,ドット製品のダウンストリーム化は最適化目標の0次近似に過ぎず,テスト時間中に情報が失われることを明らかにする。
本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
論文 参考訳(メタデータ) (2023-02-22T01:14:30Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。