論文の概要: To See or To Read: User Behavior Reasoning in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2511.03845v1
- Date: Wed, 05 Nov 2025 20:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.21132
- Title: To See or To Read: User Behavior Reasoning in Multimodal LLMs
- Title(参考訳): 見るか読むか:マルチモーダルLLMにおけるユーザ行動推論
- Authors: Tianning Dong, Luyi Ma, Varun Vasudevan, Jason Cho, Sushant Kumar, Kannan Achan,
- Abstract要約: ユーザ行動推論におけるモダリティトレードオフを評価するためのフレームワークであるtexttLentBehaviorsを提案する。
実世界の購入シーケンスデータセットを用いて、データが画像として表現された場合、MLLMの次購入予測精度は87.5%向上する。
- 参考スコア(独自算出の注目度): 5.528108069902288
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are reshaping how modern agentic systems reason over sequential user-behavior data. However, whether textual or image representations of user behavior data are more effective for maximizing MLLM performance remains underexplored. We present \texttt{BehaviorLens}, a systematic benchmarking framework for assessing modality trade-offs in user-behavior reasoning across six MLLMs by representing transaction data as (1) a text paragraph, (2) a scatter plot, and (3) a flowchart. Using a real-world purchase-sequence dataset, we find that when data is represented as images, MLLMs next-purchase prediction accuracy is improved by 87.5% compared with an equivalent textual representation without any additional computational cost.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、現代のエージェントシステムが、シーケンシャルなユーザビヘイビアデータに対してどのように推論するかを再構築している。
しかし,ユーザ行動データのテキスト表現や画像表現がMLLM性能の最大化に有効かどうかについては未検討のままである。
本稿では,(1)テキスト段落,(2)散文プロット,(3)フローチャートとしてトランザクションデータを表現することにより,MLLM間でのユーザ行動推論におけるモダリティトレードオフを評価するための,体系的なベンチマークフレームワークである‘texttt{BehaviorLens} を提案する。
実世界の購入シーケンスデータセットを用いて、データが画像として表現されると、MLLMの次購入予測精度が87.5%向上し、計算コストを伴わない同等のテキスト表現が得られた。
関連論文リスト
- MLLMRec: Exploring the Potential of Multimodal Large Language Models in Recommender Systems [8.744074431975019]
本稿では,MLLM方式のマルチモーダル・レコメンデーション・フレームワークを提案する。
MLLMRecは、最高のベースラインよりも平均38.53%改善して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-21T06:50:00Z) - Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文 参考訳(メタデータ) (2025-07-28T23:52:53Z) - MathOPEval: A Fine-grained Evaluation Benchmark for Visual Operations of MLLMs in Mathematical Reasoning [66.35003870737727]
有望なアプローチでは、中間表現としてコードを使用し、推論ステップで画像を正確に表現し、操作する。
既存の評価はテキストのみの推論出力に重点を置いており、MLLMはコードによる正確な視覚操作をほとんど探索されていないままにしている。
この研究は、マルチモーダル数学的推論におけるMLLMのコードベース能力を評価することによって、そのギャップに対処する第一歩を踏み出した。
論文 参考訳(メタデータ) (2025-07-24T07:03:11Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。