Fugu-MT 論文翻訳(概要): LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction

論文の概要: LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction

arxiv url: http://arxiv.org/abs/2510.22829v1
Date: Sun, 26 Oct 2025 20:51:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 15:28:15.381997
Title: LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction
Title（参考訳）: LLMによる商業記憶可能性予測のためのマルチモーダル特徴の融合
Authors: Aleksandar Pramov,
Abstract要約: 本稿では,MediaEval 2025ワークショップにおける「記憶可能性:映画と商業の記憶可能性」の課題の一環として,商業的(ブランド的)記憶可能性の予測について述べる。本稿では,マルチモーダルプロジェクションにより事前計算された視覚的(ViT)とテキスト的(E5)機能を統合したGemma-3 LLMバックボーンを用いたマルチモーダル融合システムを提案する。その結果, LLM ベースシステムでは, ベースラインと比較して, 最終テストセット上での強靭性と一般化性能が向上していることがわかった。
参考スコア（独自算出の注目度）: 51.56484100374058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper addresses the prediction of commercial (brand) memorability as part of "Subtask 2: Commercial/Ad Memorability" within the "Memorability: Predicting movie and commercial memorability" task at the MediaEval 2025 workshop competition. We propose a multimodal fusion system with a Gemma-3 LLM backbone that integrates pre-computed visual (ViT) and textual (E5) features by multi-modal projections. The model is adapted using Low-Rank Adaptation (LoRA). A heavily-tuned ensemble of gradient boosted trees serves as a baseline. A key contribution is the use of LLM-generated rationale prompts, grounded in expert-derived aspects of memorability, to guide the fusion model. The results demonstrate that the LLM-based system exhibits greater robustness and generalization performance on the final test set, compared to the baseline. The paper's codebase can be found at https://github.com/dsgt-arc/mediaeval-2025-memorability
Abstract（参考訳）: 本稿では,MediaEval 2025ワークショップにおける「Memorability: Predicting movie and commercial memorability」における「Subtask 2: Commercial/Ad Memorability」の一環としての商業的(ブランド的)記憶可能性の予測について述べる。本稿では,マルチモーダルプロジェクションにより事前計算された視覚的(ViT)とテキスト的(E5)機能を統合したGemma-3 LLMバックボーンを用いたマルチモーダル融合システムを提案する。このモデルはローランド適応 (LoRA) を用いて適応される。勾配が増した木の密集がベースラインとして機能する。重要な貢献は、核融合モデルを導くために、専門家由来の記憶可能性の側面を基礎としたLLM生成的合理性プロンプトを使うことである。その結果, LLM ベースシステムでは, ベースラインと比較して, 最終テストセット上での強靭性と一般化性能が向上していることがわかった。論文のコードベースはhttps://github.com/dsgt-arc/mediaeval-2025-memorabilityで見ることができる。

関連論文リスト

LLINBO: Trustworthy LLM-in-the-Loop Bayesian Optimization [5.844783557050259]
大規模言語モデル (LLM) は低データ構造において顕著な適応性を示している。本稿では,LLINBO: LLM-in-the-Loop BOを提案する。この論文は、3Dプリンティングの文脈における概念実証で締めくくっている。
論文参考訳（メタデータ） (2025-05-20T15:54:48Z)
Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:42:22Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling [21.495443162191332]
大規模言語モデル(LLM)は様々な分野で顕著な成功を収めており、いくつかの研究がレコメンデーションシステムにおいてその可能性を探求している。逐次レコメンデーションシステムを強化するために,新しい階層型大規模言語モデル (HLLM) アーキテクチャを提案する。 HLLMは,項目特徴抽出とユーザ関心モデリングの両方に 7B パラメータを利用する構成で,優れたスケーラビリティを実現している。
論文参考訳（メタデータ） (2024-09-19T13:03:07Z)
LLM-Ensemble: Optimal Large Language Model Ensemble Method for E-commerce Product Attribute Value Extraction [12.611106580612033]
大規模言語モデル(LLM)は多くの属性抽出タスクにおいて最先端の性能を示す。属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルと呼ばれる新しいアルゴリズムを提案する。提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。
論文参考訳（メタデータ） (2024-02-29T23:03:19Z)
AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。