論文の概要: KARMA: Knowledge-Action Regularized Multimodal Alignment for Personalized Search at Taobao
- arxiv url: http://arxiv.org/abs/2603.22779v1
- Date: Tue, 24 Mar 2026 04:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.298032
- Title: KARMA: Knowledge-Action Regularized Multimodal Alignment for Personalized Search at Taobao
- Title(参考訳): KARMA: Taobaoにおけるパーソナライズ検索のための知識アクション正規化マルチモーダルアライメント
- Authors: Zhi Sun, Wenming Zhang, Yi Wei, Liren Yu, Zhixuan Zhang, Dan Ou, Haihong Tang,
- Abstract要約: 大規模言語モデル(LLM)には深い意味知識が備わっている。
LLMはパーソナライズされた検索システムに意味一般化を注入するための自然な選択である。
列車のみの正規化として意味的再構成を扱うフレームワークであるKARMAを提案する。
- 参考スコア(独自算出の注目度): 22.578428613855095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are equipped with profound semantic knowledge, making them a natural choice for injecting semantic generalization into personalized search systems. However, in practice we find that directly fine-tuning LLMs on industrial personalized tasks (e.g. next item prediction) often yields suboptimal results. We attribute this bottleneck to a critical Knowledge--Action Gap: the inherent conflict between preserving pre-trained semantic knowledge and aligning with specific personalized actions by discriminative objectives. Empirically, action-only training objectives induce Semantic Collapse, such as attention ``sinks''. This degradation severely cripples the LLM's generalization, failing to bring improvements to personalized search systems. We propose KARMA (Knowledge--Action Regularized Multimodal Alignment), a unified framework that treats semantic reconstruction as a train-only regularizer. KARMA optimizes a next-interest embedding for retrieval (Action) while enforcing semantic decodability (Knowledge) through two complementary objectives: (i) history-conditioned semantic generation, which anchors optimization to the LLM's native next-token distribution, and (ii) embedding-conditioned semantic reconstruction, which constrains the interest embedding to remain semantically recoverable. On Taobao search system, KARMA mitigates semantic collapse (attention-sink analysis) and improves both action metrics and semantic fidelity. In ablations, semantic decodability yields up to +22.5 HR@200. With KARMA, we achieve +0.25 CTR AUC in ranking, +1.86 HR in pre-ranking and +2.51 HR in recalling. Deployed online with low inference overhead at ranking stage, KARMA drives +0.5% increase in Item Click.
- Abstract(参考訳): 大規模言語モデル (LLM) には深い意味的知識が備わっており、パーソナライズされた検索システムに意味的一般化を注入する自然な選択となっている。
しかし,実際に産業パーソナライズされたタスク(次の項目の予測など)を直接微調整することで,最適以下の結果が得られることが多い。
このボトルネックは、訓練済みの意味知識の保存と、差別的目的による特定のパーソナライズされた行動との固有の対立である。
経験的に、アクションのみのトレーニング目的は、'sinks'のようなセマンティック・コラプスを誘発する。
この劣化によりLLMの一般化が著しく損なわれ、パーソナライズされた検索システムに改善をもたらすことはなかった。
KARMA(Knowledge-Action Regularized Multimodal Alignment)を提案する。
KARMAは、検索(Action)のための次の関心事の埋め込みを最適化し、セマンティック・デオードビリティ(Knowledge)を2つの補完的な目的を通じて強化する。
i) LLMのネイティブな次トーケン分布に最適化を固定する履歴条件セマンティックジェネレーション
(II)埋め込み条件付きセマンティックリコンストラクションは、セマンティックリカバリが可能なように、関心埋め込みを制約する。
タオオサーチシステムでは、KARMAは意味的崩壊(アテンション・シンク解析)を緩和し、行動指標と意味的忠実性の両方を改善する。
アブレーションでは、セマンティック・デオーダビリティは+22.5 HR@200になる。
KARMAでは、ランキングで+0.25 CTR AUC、プリランクで+1.86 HR、リコールで+2.51 HRを達成する。
ランキング段階で低い推論オーバーヘッドでオンラインにデプロイされたKARMAは、アイテムクリックを0.5%増加させる。
関連論文リスト
- MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文 参考訳(メタデータ) (2026-02-19T05:20:31Z) - Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents [19.31471304268234]
DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-10-06T11:09:45Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead [24.611413814466978]
検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。
既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドが発生する。
そこで我々は,LLMの文脈認識をゼロ推論オーバーヘッドで向上する位置埋め込み非依存再重み付け(PEAR)を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:40:54Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Leveraging Hidden Positives for Unsupervised Semantic Segmentation [5.937673383513695]
隠れ陽性を抽出することで、コントラスト学習を活用して、豊かな意味関係を学習する。
隣接パッチ間のセマンティック一貫性を学習するための勾配伝搬戦略を導入する。
提案手法は,COCO-stuff,Cityscapes,Potsdam-3データセットにおけるSOTA(State-of-the-art)の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-27T08:57:28Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。