論文の概要: To See or To Read: User Behavior Reasoning in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2511.03845v1
- Date: Wed, 05 Nov 2025 20:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.21132
- Title: To See or To Read: User Behavior Reasoning in Multimodal LLMs
- Title(参考訳): 見るか読むか:マルチモーダルLLMにおけるユーザ行動推論
- Authors: Tianning Dong, Luyi Ma, Varun Vasudevan, Jason Cho, Sushant Kumar, Kannan Achan,
- Abstract要約: ユーザ行動推論におけるモダリティトレードオフを評価するためのフレームワークであるtexttLentBehaviorsを提案する。
実世界の購入シーケンスデータセットを用いて、データが画像として表現された場合、MLLMの次購入予測精度は87.5%向上する。
- 参考スコア(独自算出の注目度): 5.528108069902288
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are reshaping how modern agentic systems reason over sequential user-behavior data. However, whether textual or image representations of user behavior data are more effective for maximizing MLLM performance remains underexplored. We present \texttt{BehaviorLens}, a systematic benchmarking framework for assessing modality trade-offs in user-behavior reasoning across six MLLMs by representing transaction data as (1) a text paragraph, (2) a scatter plot, and (3) a flowchart. Using a real-world purchase-sequence dataset, we find that when data is represented as images, MLLMs next-purchase prediction accuracy is improved by 87.5% compared with an equivalent textual representation without any additional computational cost.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、現代のエージェントシステムが、シーケンシャルなユーザビヘイビアデータに対してどのように推論するかを再構築している。
しかし,ユーザ行動データのテキスト表現や画像表現がMLLM性能の最大化に有効かどうかについては未検討のままである。
本稿では,(1)テキスト段落,(2)散文プロット,(3)フローチャートとしてトランザクションデータを表現することにより,MLLM間でのユーザ行動推論におけるモダリティトレードオフを評価するための,体系的なベンチマークフレームワークである‘texttt{BehaviorLens} を提案する。
実世界の購入シーケンスデータセットを用いて、データが画像として表現されると、MLLMの次購入予測精度が87.5%向上し、計算コストを伴わない同等のテキスト表現が得られた。
関連論文リスト
- DMESR: Dual-view MLLM-based Enhancing Framework for Multimodal Sequential Recommendation [13.114773060703891]
マルチモーダルシーケンスレコメンデーション(DMESR)のためのデュアルビューMLLMベースのエンハンシングフレームワークを提案する。
ここでは,MLLM が生成する言語間の意味表現の整合に,コントラスト学習機構を用いる。
細粒度セマンティクスを欠くために,MLLMから得られた粗粒度セマンティクスと細粒度テキストセマンティクスを統合したクロスアテンション融合モジュールを導入する。
論文 参考訳(メタデータ) (2026-02-14T10:42:56Z) - Benchmarking Multimodal Large Language Models for Missing Modality Completion in Product Catalogues [19.732113077201326]
製品イメージの欠如やテキスト記述など、eコマースプラットフォーム上のモダリティの欠如は、しばしばアノテーションエラーや不完全なメタデータから生じる。
マルチモーダルな大規模言語モデルは、eコマースのシナリオで製品に欠けているモダリティを生成することができるか?
本稿では,コンテンツ品質コンプリートベンチマークと推奨ベンチマークの2つのサブベンチマークからなるMMPCBenchを提案する。
我々は、Qwen2.5-VLおよびGemma-3モデルファミリーから、9つの実世界のeコマースカテゴリーの6つの最先端MLLMを評価し、焦点を当てた。
論文 参考訳(メタデータ) (2026-01-27T16:13:26Z) - Comparison of Text-Based and Image-Based Retrieval in Multimodal Retrieval Augmented Generation Large Language Model Systems [0.0]
本稿では,マルチモーダルRAGシステムにおける2つの検索手法の比較分析を行う。
直接マルチモーダル埋め込み検索は、LLM-summary-based approachよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-11-20T18:56:49Z) - MLLMRec: Exploring the Potential of Multimodal Large Language Models in Recommender Systems [8.744074431975019]
本稿では,MLLM方式のマルチモーダル・レコメンデーション・フレームワークを提案する。
MLLMRecは、最高のベースラインよりも平均38.53%改善して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-21T06:50:00Z) - Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文 参考訳(メタデータ) (2025-07-28T23:52:53Z) - MathOPEval: A Fine-grained Evaluation Benchmark for Visual Operations of MLLMs in Mathematical Reasoning [66.35003870737727]
有望なアプローチでは、中間表現としてコードを使用し、推論ステップで画像を正確に表現し、操作する。
既存の評価はテキストのみの推論出力に重点を置いており、MLLMはコードによる正確な視覚操作をほとんど探索されていないままにしている。
この研究は、マルチモーダル数学的推論におけるMLLMのコードベース能力を評価することによって、そのギャップに対処する第一歩を踏み出した。
論文 参考訳(メタデータ) (2025-07-24T07:03:11Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。