論文の概要: FITRep: Attention-Guided Item Representation via MLLMs
- arxiv url: http://arxiv.org/abs/2511.21389v1
- Date: Wed, 26 Nov 2025 13:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.117421
- Title: FITRep: Attention-Guided Item Representation via MLLMs
- Title(参考訳): FITRep:MLLMによる注意誘導アイテム表現
- Authors: Guoxiao Zhang, Ao Li, Tan Qu, Qianlong Xie, Xingxing Wang,
- Abstract要約: FITRep は,細粒度アイテムデデューズのための最初の注目誘導型ホワイトボックスアイテム表現フレームワークである。
Meituanの広告システム上に展開されたFITRepは、オンラインA/Bテストで+3.60%のCTRと+4.25%のCPMを達成し、効果と実世界への影響の両方を実証している。
- 参考スコア(独自算出の注目度): 8.026404756145485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online platforms usually suffer from user experience degradation due to near-duplicate items with similar visuals and text. While Multimodal Large Language Models (MLLMs) enable multimodal embedding, existing methods treat representations as black boxes, ignoring structural relationships (e.g., primary vs. auxiliary elements), leading to local structural collapse problem. To address this, inspired by Feature Integration Theory (FIT), we propose FITRep, the first attention-guided, white-box item representation framework for fine-grained item deduplication. FITRep consists of: (1) Concept Hierarchical Information Extraction (CHIE), using MLLMs to extract hierarchical semantic concepts; (2) Structure-Preserving Dimensionality Reduction (SPDR), an adaptive UMAP-based method for efficient information compression; and (3) FAISS-Based Clustering (FBC), a FAISS-based clustering that assigns each item a unique cluster id using FAISS. Deployed on Meituan's advertising system, FITRep achieves +3.60% CTR and +4.25% CPM gains in online A/B tests, demonstrating both effectiveness and real-world impact.
- Abstract(参考訳): オンラインプラットフォームは通常、類似したビジュアルとテキストを持つほぼ重複したアイテムのために、ユーザエクスペリエンスの劣化に悩まされる。
MLLM(Multimodal Large Language Models)はマルチモーダル埋め込みを可能にするが、既存の手法ではブラックボックスとして表現を扱い、構造的関係(例えば一次要素と補助要素)を無視し、局所的な構造的崩壊問題を引き起こす。
特徴統合理論(FIT)に着想を得たFITRepを提案する。
FITRepは,(1)階層的情報抽出 (CHIE) の概念を用いて階層的意味概念を抽出し,(2) 構造保存次元度低減 (SPDR) と,(3) FAISSベースのクラスタリング (FBC) から構成される。
Meituanの広告システム上に展開されたFITRepは、オンラインA/Bテストで+3.60%のCTRと+4.25%のCPMを達成し、効果と実世界への影響の両方を実証している。
関連論文リスト
- Divide, Cache, Conquer: Dichotomic Prompting for Efficient Multi-Label LLM-Based Classification [0.2799896314754614]
大規模言語モデル(LLM)を用いた効率的な多言語テキスト分類手法を提案する。
単一の構造化された応答で全てのラベルを生成する代わりに、各ターゲット次元は独立してクエリされる。
この結果から,マルチラベル分類をダイコトミッククエリに分解することで,スケーラブルで効率的なフレームワークが提供されることが示唆された。
論文 参考訳(メタデータ) (2025-11-05T19:53:51Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP [57.49519639951552]
CLIPEraseは視覚的・テキスト的関連を選択的に忘れる新しいアプローチである。
CIFAR-100とFlickr30Kデータセットの実験は、CLIPEraseがマルチモーダルサンプルのゼロショットタスクにおける指定された関連性を効果的に忘れていることを示している。
論文 参考訳(メタデータ) (2024-10-30T17:51:31Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - Federated Unsupervised Representation Learning [56.715917111878106]
フェデレート非教師表現学習(FURL)と呼ばれるフェデレーション学習における新しい問題を定式化し、教師なしの共通表現モデルを学習する。
FedCAは2つの主要なモジュールで構成されている: 辞書モジュールは、各クライアントからのサンプルの表現を集約し、表現空間の整合性のためにすべてのクライアントと共有し、アライメントモジュールは、公開データに基づいてトレーニングされたベースモデル上で各クライアントの表現を整合させる。
論文 参考訳(メタデータ) (2020-10-18T13:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。