Fugu-MT 論文翻訳(概要): ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems

論文の概要: ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems

arxiv url: http://arxiv.org/abs/2502.16077v1
Date: Sat, 22 Feb 2025 04:43:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.971286
Title: ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems
Title（参考訳）: ESANS:大規模検索システムにおける有効かつ意味論的ネガティブサンプリング
Authors: Haibo Xing, Kanefumi Matsuyama, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng,
Abstract要約: 検索段階において、古典的な埋め込みに基づく検索手法は、性能と効率を両立させる効果的な負のサンプリング手法に依存している。我々は,エフェクト・センス補間戦略 (EDIS) とマルチモーダル・セマンティック・アウェア・クラスタリング (MSAC) の2つの重要なコンポーネントを統合した,エフェクト・セマンティック・ネガティブ・サンプリング (ESANS) を提案する。
参考スコア（独自算出の注目度）: 7.897183317096681
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Industrial recommendation systems typically involve a two-stage process: retrieval and ranking, which aims to match users with millions of items. In the retrieval stage, classic embedding-based retrieval (EBR) methods depend on effective negative sampling techniques to enhance both performance and efficiency. However, existing techniques often suffer from false negatives, high cost for ensuring sampling quality and semantic information deficiency. To address these limitations, we propose Effective and Semantic-Aware Negative Sampling (ESANS), which integrates two key components: Effective Dense Interpolation Strategy (EDIS) and Multimodal Semantic-Aware Clustering (MSAC). EDIS generates virtual samples within the low-dimensional embedding space to improve the diversity and density of the sampling distribution while minimizing computational costs. MSAC refines the negative sampling distribution by hierarchically clustering item representations based on multimodal information (visual, textual, behavioral), ensuring semantic consistency and reducing false negatives. Extensive offline and online experiments demonstrate the superior efficiency and performance of ESANS.
Abstract（参考訳）: 産業レコメンデーションシステムは通常、検索とランキングという2段階のプロセスを含む。検索段階では,従来の埋め込み型検索(EBR)手法は,有効負サンプリング技術に依存し,性能と効率の両立を図っている。しかし、既存の手法は、しばしば偽陰性、サンプリング品質とセマンティック情報不足の確保のための高いコストに悩まされる。これらの制約に対処するため、Effective Dense Interpolation Strategy(EDIS)とMultimodal Semantic-Aware Clustering(MSAC)の2つの主要なコンポーネントを統合するEffective and Semantic-Aware Negative Sampling(ESANS)を提案する。 EDISは低次元埋め込み空間内で仮想サンプルを生成し、計算コストを最小化しながらサンプリング分布の多様性と密度を向上させる。 MSACは、マルチモーダル情報(視覚的、テキスト的、行動的)に基づいてアイテム表現を階層的にクラスタリングし、セマンティックな一貫性を確保し、偽陰性を減らすことによって、負のサンプリング分布を洗練する。大規模なオフラインおよびオンライン実験は、ESANSの優れた効率と性能を示している。

関連論文リスト

Dual-Tree LLM-Enhanced Negative Sampling for Implicit Collaborative Filtering [40.89512526196666]
大型言語モデル(LLM)は推奨システムにおいて有望であることを示している。既存の方法はテキスト情報とタスク固有の微調整に依存しており、実用性に制限がある。テキストフリーかつ微調整不要なデュアルトレー型負サンプリング法(DTL-NS)を提案する。
論文参考訳（メタデータ） (2026-02-20T14:32:41Z)
VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL [38.782188833641676]
GRPOやGSPOのようなグループベースのポリシー最適化手法は、マルチモーダルモデルのトレーニングの標準となっている。グループ内のすべての応答が同じ報酬を受けると、それらは致命的な急激な消滅問題に悩まされる。 textbfVADEは,オンラインサンプルレベルの難易度を用いたサンプリングフレームワークである。
論文参考訳（メタデータ） (2025-11-24T08:59:54Z)
What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations [1.2879523047871226]
GM-Extract は制御変数の検索において LLM 性能を評価するために慎重に設計された新しいベンチマークデータセットである。 2つのマルチドキュメントタスク(キー値抽出と質問応答)における7-8Bパラメータモデルの体系的評価を行う。明瞭なU字曲線は一貫して観測されなかったが,本研究では,モデル間での明らかな性能パターンを明らかにした。
論文参考訳（メタデータ） (2025-11-17T20:50:50Z)
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning [101.62386137855704]
本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。提案手法はまず,グローバル検索による潜在的な負のセットを構築する。次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
論文参考訳（メタデータ） (2025-10-15T13:07:00Z)
Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。 5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文参考訳（メタデータ） (2025-09-30T03:24:09Z)
Can LLM-Driven Hard Negative Sampling Empower Collaborative Filtering? Findings and Potentials [9.668242919588199]
強い負のサンプルはモデル収束を加速し、決定境界を最適化する。本稿ではセマンティックネガティブサンプリングの概念を紹介する。協調信号によって制御される微調整LDMに基づくHNLMRecというフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-07T04:39:45Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation [17.18176550968383]
本稿では,SRA-CL(Semantic Retrieval Augmented Contrastive Learning)という手法を提案する。 SRA-CLは、(1)大規模言語モデル(LLM)を利用して多様なユーザの嗜好を理解し、意味的に類似したユーザを検索して、学習可能なサンプル手法で信頼性の高い正のサンプルを作成する、(2) LLMを使ってアイテムを理解し、類似したアイテムを検索する、アイテムセマンティック検索という2つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2025-03-06T07:25:19Z)
Diversified Sampling Improves Scaling LLM inference [31.18762591875725]
DivSamplingは、候補解の多様性を高めるために設計された、斬新で多用途なサンプリング技術である。理論解析により, 微妙な仮定の下では, 種々のプロンプトから発生する応答の誤り率は, 定常プロンプトによる応答よりも有意に低いことが示された。
論文参考訳（メタデータ） (2025-02-16T07:37:58Z)
SyNeg: LLM-Driven Synthetic Hard-Negatives for Dense Retrieval [45.971786380884126]
Dense Search (DR) の性能は, 陰性サンプリングの品質に大きく影響される。大規模言語モデル(LLM)の最近の進歩は、文脈的にリッチで多様な負のサンプルを生成することで革新的なソリューションを提供する。本研究では,LLMを用いて高品質な硬質負のサンプルを合成するフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-23T03:49:00Z)
Scalable and Effective Negative Sample Generation for Hyperedge Prediction [55.9298019975967]
ハイパーエッジ予測は、Webベースのアプリケーションにおける複雑なマルチエンタリティ相互作用を理解するために不可欠である。従来の手法では、正と負のインスタンスの不均衡により、高品質な負のサンプルを生成するのが困難であることが多い。本稿では,これらの課題に対処するために拡散モデルを利用するハイパーエッジ予測(SEHP)フレームワークのスケーラブルで効果的な負のサンプル生成について述べる。
論文参考訳（メタデータ） (2024-11-19T09:16:25Z)
A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文参考訳（メタデータ） (2024-06-25T07:45:00Z)
Multi-Margin Cosine Loss: Proposal and Application in Recommender Systems [0.0]
協調フィルタリングに基づくディープラーニング技術は、その素直な性質から人気を取り戻している。これらのシステムは、相互作用モジュール、損失関数、ネガティブサンプリング戦略の3つの主要コンポーネントから構成される。提案したMulti-Margin Cosine Loss (MMCL)は、負のサンプルに対して複数のマージンと様々な重みを導入することで、これらの課題に対処する。
論文参考訳（メタデータ） (2024-05-07T18:58:32Z)
Hybrid Representation-Enhanced Sampling for Bayesian Active Learning in Musculoskeletal Segmentation of Lower Extremities [0.9287179270753105]
本研究では,密度と多様性の両基準を統合したハイブリッドな表現強化サンプリング戦略を提案する。 MRIとCT画像の2つの下肢(LE)データセットで実験を行った。
論文参考訳（メタデータ） (2023-07-26T06:52:29Z)
Test-Time Distribution Normalization for Contrastively Learned Vision-language Models [39.66329310098645]
CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。本稿では,ドット製品のダウンストリーム化は最適化目標の0次近似に過ぎず,テスト時間中に情報が失われることを明らかにする。本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
論文参考訳（メタデータ） (2023-02-22T01:14:30Z)
Rethinking Collaborative Metric Learning: Toward an Efficient Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文参考訳（メタデータ） (2022-06-23T08:50:22Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文参考訳（メタデータ） (2020-12-23T06:28:00Z)
Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。 FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。 MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文参考訳（メタデータ） (2020-07-18T09:48:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。