論文の概要: LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction
- arxiv url: http://arxiv.org/abs/2510.22829v1
- Date: Sun, 26 Oct 2025 20:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.381997
- Title: LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction
- Title(参考訳): LLMによる商業記憶可能性予測のためのマルチモーダル特徴の融合
- Authors: Aleksandar Pramov,
- Abstract要約: 本稿では,MediaEval 2025ワークショップにおける「記憶可能性:映画と商業の記憶可能性」の課題の一環として,商業的(ブランド的)記憶可能性の予測について述べる。
本稿では,マルチモーダルプロジェクションにより事前計算された視覚的(ViT)とテキスト的(E5)機能を統合したGemma-3 LLMバックボーンを用いたマルチモーダル融合システムを提案する。
その結果, LLM ベースシステムでは, ベースラインと比較して, 最終テストセット上での強靭性と一般化性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the prediction of commercial (brand) memorability as part of "Subtask 2: Commercial/Ad Memorability" within the "Memorability: Predicting movie and commercial memorability" task at the MediaEval 2025 workshop competition. We propose a multimodal fusion system with a Gemma-3 LLM backbone that integrates pre-computed visual (ViT) and textual (E5) features by multi-modal projections. The model is adapted using Low-Rank Adaptation (LoRA). A heavily-tuned ensemble of gradient boosted trees serves as a baseline. A key contribution is the use of LLM-generated rationale prompts, grounded in expert-derived aspects of memorability, to guide the fusion model. The results demonstrate that the LLM-based system exhibits greater robustness and generalization performance on the final test set, compared to the baseline. The paper's codebase can be found at https://github.com/dsgt-arc/mediaeval-2025-memorability
- Abstract(参考訳): 本稿では,MediaEval 2025ワークショップにおける「Memorability: Predicting movie and commercial memorability」における「Subtask 2: Commercial/Ad Memorability」の一環としての商業的(ブランド的)記憶可能性の予測について述べる。
本稿では,マルチモーダルプロジェクションにより事前計算された視覚的(ViT)とテキスト的(E5)機能を統合したGemma-3 LLMバックボーンを用いたマルチモーダル融合システムを提案する。
このモデルはローランド適応 (LoRA) を用いて適応される。
勾配が増した木の密集がベースラインとして機能する。
重要な貢献は、核融合モデルを導くために、専門家由来の記憶可能性の側面を基礎としたLLM生成的合理性プロンプトを使うことである。
その結果, LLM ベースシステムでは, ベースラインと比較して, 最終テストセット上での強靭性と一般化性能が向上していることがわかった。
論文のコードベースはhttps://github.com/dsgt-arc/mediaeval-2025-memorabilityで見ることができる。
関連論文リスト
- LLINBO: Trustworthy LLM-in-the-Loop Bayesian Optimization [5.844783557050259]
大規模言語モデル (LLM) は低データ構造において顕著な適応性を示している。
本稿では,LLINBO: LLM-in-the-Loop BOを提案する。
この論文は、3Dプリンティングの文脈における概念実証で締めくくっている。
論文 参考訳(メタデータ) (2025-05-20T15:54:48Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Best Practices for Distilling Large Language Models into BERT for Web Search Ranking [14.550458167328497]
LLM(Large Language Models)は、潜在的文書のランク付けリストを生成する。
LLMのランキングの専門知識をBERTのようなよりコンパクトなモデルに移行し、ランキングの損失を利用して、リソース集約の少ないモデルのデプロイを可能にします。
2024年2月現在,我々のモデルは商用ウェブ検索エンジンに統合されている。
論文 参考訳(メタデータ) (2024-11-07T08:54:46Z) - HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling [21.495443162191332]
大規模言語モデル(LLM)は様々な分野で顕著な成功を収めており、いくつかの研究がレコメンデーションシステムにおいてその可能性を探求している。
逐次レコメンデーションシステムを強化するために,新しい階層型大規模言語モデル (HLLM) アーキテクチャを提案する。
HLLMは,項目特徴抽出とユーザ関心モデリングの両方に 7B パラメータを利用する構成で,優れたスケーラビリティを実現している。
論文 参考訳(メタデータ) (2024-09-19T13:03:07Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - LLM-Ensemble: Optimal Large Language Model Ensemble Method for E-commerce Product Attribute Value Extraction [12.611106580612033]
大規模言語モデル(LLM)は多くの属性抽出タスクにおいて最先端の性能を示す。
属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルと呼ばれる新しいアルゴリズムを提案する。
提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。
論文 参考訳(メタデータ) (2024-02-29T23:03:19Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。