Fugu-MT 論文翻訳(概要): A General Framework for Multimodal LLM-Based Multimedia Understanding in Large-Scale Recommendation Systems

論文の概要: A General Framework for Multimodal LLM-Based Multimedia Understanding in Large-Scale Recommendation Systems

arxiv url: http://arxiv.org/abs/2605.09338v1
Date: Sun, 10 May 2026 05:24:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 14:44:06.472648
Title: A General Framework for Multimodal LLM-Based Multimedia Understanding in Large-Scale Recommendation Systems
Title（参考訳）: 大規模レコメンデーションシステムにおけるマルチモーダルLLMに基づくマルチメディア理解のための汎用フレームワーク
Authors: Yiming Zhu, Xu Liu, Ziyun Xu, Zheng Wu, Joena Zhang, Sirius Chen, Chenheli Hua, Silvester Yao, Qichao Que, Wentao Shi, Junfeng Pan, Linhong Zhu,
Abstract要約: MM-LLM駆動型マルチメディア理解のためのフレームワークを提案する。本手法では、コンテンツ解釈、表現抽出、系統的なパイプライン統合を含む三部構造を用いる。実証的な評価は、このアプローチの有効性を示し、オフラインのAUCが0.35%、大規模なオンラインメトリクスが0.02%向上した。
参考スコア（独自算出の注目度）: 13.743053021808604
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Conventional recommendation systems frequently fail to fully exploit the high-dimensional semantic signals inherent in multimedia content, thereby limiting the fidelity of user preference modeling. While Multimodal Large Language Models (MM-LLMs) offer robust mechanisms for interpreting such complex data, their integration into latency-constrained, industrial-scale architectures remains a significant challenge. To address this, we propose a generalized framework for MM-LLM-driven multimedia understanding. Our methodology employs a tripartite architecture encompassing content interpretation, representation extraction, and systematic pipeline integration, instantiated via a LLaMA2-based model that generates descriptive captions subsequently ingested as tokenized categorical features. Empirical evaluation demonstrates the efficacy of this approach, yielding a $0.35\%$ increase in offline AUC and a $0.02\%$ improvement in online metrics at scale, substantiating the practical viability of leveraging MM-LLMs to enhance large-scale recommendation performance.
Abstract（参考訳）: 従来のレコメンデーションシステムは、マルチメディアコンテンツに固有の高次元のセマンティック信号を完全に活用することができず、ユーザ好みのモデリングの忠実さを制限している。マルチモーダル大規模言語モデル(MM-LLM)はそのような複雑なデータを解釈するための堅牢なメカニズムを提供するが、レイテンシに制約のある産業規模のアーキテクチャへの統合は依然として大きな課題である。そこで本稿では,MM-LLM駆動型マルチメディア理解のための汎用フレームワークを提案する。提案手法では,LLaMA2モデルを用いて,コンテンツ解釈,表現抽出,系統的なパイプライン統合を含む三部構造を用いて記述キャプションを生成する。実験的な評価は、このアプローチの有効性を示し、オフラインのAUCが0.35\%、大規模なオンラインメトリクスが0.02\%向上し、大規模なレコメンデーションパフォーマンスを高めるためにMM-LLMを利用することの実践的可能性を実証する。

関連論文リスト

DMESR: Dual-view MLLM-based Enhancing Framework for Multimodal Sequential Recommendation [13.114773060703891]
マルチモーダルシーケンスレコメンデーション(DMESR)のためのデュアルビューMLLMベースのエンハンシングフレームワークを提案する。ここでは,MLLM が生成する言語間の意味表現の整合に,コントラスト学習機構を用いる。細粒度セマンティクスを欠くために,MLLMから得られた粗粒度セマンティクスと細粒度テキストセマンティクスを統合したクロスアテンション融合モジュールを導入する。
論文参考訳（メタデータ） (2026-02-14T10:42:56Z)
MDL: A Unified Multi-Distribution Learner in Large-scale Industrial Recommendation through Tokenization [14.534152704620261]
産業レコメンデータシステムは、多様なユーザインタラクションやコンテキストを扱うために、MSL(Multi-scenario Learning)とMulti-task Learning(MTL)を採用するようになっている。既存のアプローチでは,(1)複雑な特徴モジュールとの相互作用が限られているため,大規模モデルパラメータの非活用,(2)統合されたフレームワークにおけるシナリオとタスク情報の共同モデリングの難しさ,という2つの重大な欠点がある。大規模言語モデル(LLM)における「プロンプト」パラダイムにインスパイアされた、統一された textbfMulti-textbfDistribution textbfL MSL フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-07T12:34:27Z)
OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文参考訳（メタデータ） (2025-09-03T17:29:50Z)
Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文参考訳（メタデータ） (2024-03-11T15:48:43Z)
Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文参考訳（メタデータ） (2023-09-03T19:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。