論文の概要: SARM: LLM-Augmented Semantic Anchor for End-to-End Live-Streaming Ranking
- arxiv url: http://arxiv.org/abs/2602.09401v1
- Date: Tue, 10 Feb 2026 04:15:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.374556
- Title: SARM: LLM-Augmented Semantic Anchor for End-to-End Live-Streaming Ranking
- Title(参考訳): SARM: LLM拡張されたライブストリーミングランキング用セマンティックアンカー
- Authors: Ruochen Yang, Yueyang Liu, Zijie Zhuang, Changxin Lao, Yuhui Zhang, Jiangxia Cao, Jia Xu, Xiang Chen, Haoke Xiao, Xiangyu Wu, Xiaoyou Zhou, Xiao Lv, Shuang Yang, Tingwen Liu, Zhaojie Liu, Han Li, Kun Gai,
- Abstract要約: 大規模なライブストリーミングレコメンデーションでは、リアルタイムサービス制約下での非定常コンテンツセマンティクスの正確なモデリングが必要である。
自然言語のセマンティックアンカーをランキング最適化に直接統合するエンドツーエンドのランキングアーキテクチャである textbfSARM を提案する。
SARMは完全にデプロイされており、毎日4億人のユーザにサービスを提供している。
- 参考スコア(独自算出の注目度): 49.109782956280064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale live-streaming recommendation requires precise modeling of non-stationary content semantics under strict real-time serving constraints. In industrial deployment, two common approaches exhibit fundamental limitations: discrete semantic abstractions sacrifice descriptive precision through clustering, while dense multimodal embeddings are extracted independently and remain weakly aligned with ranking optimization, limiting fine-grained content-aware ranking. To address these limitations, we propose \textbf{SARM}, an end-to-end ranking architecture that integrates natural-language semantic anchors directly into ranking optimization, enabling fine-grained author representations conditioned on multimodal content. Each semantic anchor is represented as learnable text tokens jointly optimized with ranking features, allowing the model to adapt content descriptions to ranking objectives. A lightweight dual-token gated design captures domain-specific live-streaming semantics, while an asymmetric deployment strategy preserves low-latency online training and serving. Extensive offline evaluation and large-scale A/B tests show consistent improvements over production baselines. SARM is fully deployed and serves over 400 million users daily.
- Abstract(参考訳): 大規模なライブストリーミングレコメンデーションでは、厳密なリアルタイムサービス制約の下で、静止しないコンテンツのセマンティクスを正確にモデル化する必要がある。
離散的セマンティック抽象化はクラスタリングによる記述的精度を犠牲にするが、密集したマルチモーダル埋め込みは独立して抽出され、ランキング最適化と弱い整合を保ち、細かいコンテンツ認識ランキングを制限する。
これらの制約に対処するために,自然言語のセマンティックアンカーを直接統合し,マルチモーダルコンテンツ上での詳細な著者表現を可能にする,エンドツーエンドのランキングアーキテクチャである \textbf{SARM} を提案する。
各セマンティックアンカーは、ランキング機能に最適化された学習可能なテキストトークンとして表現され、モデルがランキング目的にコンテンツ記述を適用することができる。
軽量なデュアルトークンゲートデザインはドメイン固有のライブストリーミングセマンティクスをキャプチャし、非対称なデプロイメント戦略は低レイテンシのオンライントレーニングとサービスを保存する。
大規模なオフライン評価と大規模A/Bテストは、プロダクションベースラインよりも一貫した改善を示している。
SARMは完全にデプロイされており、毎日4億人のユーザにサービスを提供している。
関連論文リスト
- Generalizable Prompt Tuning for Audio-Language Models via Semantic Expansion [32.60365302637783]
音声言語モデル(ALM)における即時チューニングのためのSemantically Expanded Prompt Tuning (SEPT)を提案する。
SEPTは、大きな言語モデルによって生成されるセマンティックな隣人を組み込むことで、迅速な埋め込み空間を正規化する。
大規模な実験により、SEPTは複数のプロンプトチューニングベースラインにまたがる一般化性能を一貫して改善することが示された。
論文 参考訳(メタデータ) (2026-01-06T12:47:32Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation [6.314084134346798]
EGFormerは効率的なマルチモーダルセマンティックセグメンテーションフレームワークである。
任意の数のモダリティを柔軟に統合し、モデルパラメータと推論時間を著しく削減する。
最大88%のパラメータが減少し、50%のGFLOPが削減される。
論文 参考訳(メタデータ) (2025-05-20T07:08:49Z) - Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [72.28364940168092]
オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを使用して未定義のクラスの集合からピクセルをラベル付けする。
本稿では,セマンティックライブラリ適応(Semantic Library Adaptation, SemLA)を紹介する。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文 参考訳(メタデータ) (2025-01-29T13:24:53Z) - MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。
本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。
本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文 参考訳(メタデータ) (2024-12-22T06:12:03Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。