論文の概要: ViLLA-MMBench: A Unified Benchmark Suite for LLM-Augmented Multimodal Movie Recommendation
- arxiv url: http://arxiv.org/abs/2508.04206v1
- Date: Wed, 06 Aug 2025 08:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.633552
- Title: ViLLA-MMBench: A Unified Benchmark Suite for LLM-Augmented Multimodal Movie Recommendation
- Title(参考訳): ViLLA-MMBench:LLM拡張マルチモーダル映画レコメンデーションのための統一ベンチマークスイート
- Authors: Fatemeh Nazary, Ali Tourani, Yashar Deldjoo, Tommaso Di Noia,
- Abstract要約: ViLLA-MMBenchはマルチモーダル映画レコメンデーションのベンチマークである。
オーディオ(ブロックレベル、i-ベクター)、ビジュアル(CNN、AVF)、テキストの3つのモードからの密なアイテムの埋め込みを調整する。
不足メタデータやスパースメタデータは、最先端のLCMを使用して自動的に強化される。
- 参考スコア(独自算出の注目度): 14.62192876151853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommending long-form video content demands joint modeling of visual, audio, and textual modalities, yet most benchmarks address only raw features or narrow fusion. We present ViLLA-MMBench, a reproducible, extensible benchmark for LLM-augmented multimodal movie recommendation. Built on MovieLens and MMTF-14K, it aligns dense item embeddings from three modalities: audio (block-level, i-vector), visual (CNN, AVF), and text. Missing or sparse metadata is automatically enriched using state-of-the-art LLMs (e.g., OpenAI Ada), generating high-quality synopses for thousands of movies. All text (raw or augmented) is embedded with configurable encoders (Ada, LLaMA-2, Sentence-T5), producing multiple ready-to-use sets. The pipeline supports interchangeable early-, mid-, and late-fusion (concatenation, PCA, CCA, rank-aggregation) and multiple backbones (MF, VAECF, VBPR, AMR, VMF) for ablation. Experiments are fully declarative via a single YAML file. Evaluation spans accuracy (Recall, nDCG) and beyond-accuracy metrics: cold-start rate, coverage, novelty, diversity, fairness. Results show LLM-based augmentation and strong text embeddings boost cold-start and coverage, especially when fused with audio-visual features. Systematic benchmarking reveals universal versus backbone- or metric-specific combinations. Open-source code, embeddings, and configs enable reproducible, fair multimodal RS research and advance principled generative AI integration in large-scale recommendation. Code: https://recsys-lab.github.io/ViLLA-MMBench
- Abstract(参考訳): ロングフォームなビデオコンテンツは、ビジュアル、オーディオ、テキストのモダリティを共同でモデリングする必要があるが、ほとんどのベンチマークは生の特徴や狭い融合にのみ対応している。
LLM強化マルチモーダル映画レコメンデーションのための再現可能な拡張可能なベンチマークであるViLLA-MMBenchを提案する。
MovieLensとMMTF-14Kをベースとしており、オーディオ(ブロックレベル、i-ベクター)、ビジュアル(CNN、AVF)、テキストの3つのモードから密集したアイテムを埋め込む。
不足メタデータやスパースメタデータは、最先端のLCM(例えばOpenAI Ada)を使用して自動的に強化され、何千もの映画のために高品質なシナプスを生成する。
すべてのテキスト (raw または augmented) は構成可能なエンコーダ (Ada, LLaMA-2, Sentence-T5) で埋め込まれ、複数のプリア・トゥ・ユース・セットを生成する。
パイプラインは、早期、中期、後期融合(結合、PCA、CAA、ランクアグリゲーション)と複数のバックボーン(MF、VAECF、VBPR、AMR、VMF)をアブレーションのためにサポートしている。
実験は単一のYAMLファイルを通じて完全に宣言的である。
評価は精度(リコール、nDCG)と、コールドスタート率、カバレッジ、ノベルティ、ダイバーシティ、フェアネスといった超精度の指標にまたがる。
以上の結果から,LLMによる拡張と強いテキスト埋め込みは,特に音声視覚機能と融合した場合に,コールドスタートとカバレッジを向上することが示された。
システムベンチマークは、普遍的対バックボーンまたはメートル法固有の組み合わせを明らかにする。
オープンソースコード、埋め込み、設定は、再現可能な、公正なマルチモーダルRSの研究を可能にし、大規模なレコメンデーションで先進的な生成AI統合を可能にする。
コード:https://recsys-lab.github.io/ViLLA-MMBench
関連論文リスト
- Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference [88.57742986765238]
Free-MoRefは、ビデオMLLMのコンテキスト認識能力を多重化するトレーニング不要のアプローチである。
実験によると、Free-MoRefは1つのA100 GPUで圧縮することなく、2$times$から8$times$の入力フレームを完全に認識できる。
論文 参考訳(メタデータ) (2025-08-04T07:31:10Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning [37.86612817818566]
そこで本稿では,関連ビデオフレームに推論ステップを接頭し,明示的に参照するビデオLLMを提案する。
我々のアプローチはシンプルで自己完結型であり、ビデオCoTの既存のアプローチとは異なり、関連するフレームを選択またはキャプションするために補助的なネットワークを必要としない。
これにより、複数のビデオ理解ベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-05-31T00:08:21Z) - Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
大規模言語モデル(LLM)の最近の進歩は、音声認識において、AVSR(Audio-Visual Speech Recognition)を含む強力な性能を示している。
そこで我々は,AVSRのための最初のMateryoshkaベースのマルチモーダルLLMであるLlama-MTSKを提案する。
Matryoshka Representation Learningにインスパイアされた私たちのモデルは、単一のアーキテクチャで複数の粒度の表現をエンコードします。
効率的な微調整を行うため,グローバルおよびスケール固有のモジュールを用いたLoRAベースの戦略を3つ導入する。
論文 参考訳(メタデータ) (2025-03-09T00:02:10Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - OneLLM: One Framework to Align All Modalities with Language [86.8818857465443]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。