Fugu-MT 論文翻訳(概要): Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging

論文の概要: Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging

arxiv url: http://arxiv.org/abs/2309.01026v1
Date: Sat, 2 Sep 2023 21:29:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 23:34:58.952409
Title: Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging
Title（参考訳）: マルチモーダルヌーディングのための事前学習された大規模言語モデルによるゼロショットレコメンデーション
Authors: Rachel Harrison, Anton Dereventsov, Anton Bibin
Abstract要約: 本稿では,異なるモーダルの描画入力をテキスト記述として提案し,事前学習したLCMを用いて数値表現を得る。合成マルチモーダルヌーディング環境へのアプローチを実証する。
参考スコア（独自算出の注目度）: 0.9069887212265084
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a method for zero-shot recommendation of multimodal non-stationary content that leverages recent advancements in the field of generative AI. We propose rendering inputs of different modalities as textual descriptions and to utilize pre-trained LLMs to obtain their numerical representations by computing semantic embeddings. Once unified representations of all content items are obtained, the recommendation can be performed by computing an appropriate similarity metric between them without any additional learning. We demonstrate our approach on a synthetic multimodal nudging environment, where the inputs consist of tabular, textual, and visual data.
Abstract（参考訳）: 生成AI分野における最近の進歩を生かしたマルチモーダル非定常コンテンツのゼロショットレコメンデーション手法を提案する。テキスト記述として異なるモードの描画入力を提案するとともに,事前学習したLCMを用いて意味埋め込みを計算して数値表現を得る。すべてのコンテンツ項目の統一表現が得られたら、追加の学習なしにそれらの間の適切な類似度メトリックを計算して推奨を行うことができる。本稿では,入力が表型,テキスト型,視覚データで構成される合成マルチモーダルヌージング環境において,このアプローチを実証する。

関連論文リスト

Weighted Multi-Prompt Learning with Description-free Large Language Model Distillation [1.3381749415517021]
大規模言語モデル(LLM)をプロンプトに活用する新たなアプローチが提案されている。既存の方法は典型的には LLM からテキストベースの応答(つまり記述)を抽出し、プロンプトに組み込む。記述を抽出し, LLM から直接知識を抽出する新たな手法として, 記述不要なマルチプロンプト学習(DeMul)を提案する。
論文参考訳（メタデータ） (2025-07-09T07:55:25Z)
Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:42:22Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文参考訳（メタデータ） (2024-09-11T13:49:48Z)
Enhance Modality Robustness in Text-Centric Multimodal Alignment with Adversarial Prompting [4.985886792128721]
本研究では, 雑音不完全, 動的入力順序順順, モダリティの欠如に対して, マルチモーダル表現の品質とロバスト性を評価する。本稿では,従来の頑健なトレーニング手法や事前学習されたマルチモーダル基礎モデルと比較して,頑健さを著しく向上させる新しいテキスト中心の対角訓練手法を提案する。
論文参考訳（メタデータ） (2024-08-19T08:44:55Z)
MMREC: LLM Based Multi-Modal Recommender System [2.3113916776957635]
本稿では,Large Language Models(LLM)とディープラーニング技術を活用して,レコメンデータシステムを強化する新しい手法を提案する。提案フレームワークは,マルチモーダル情報処理を取り入れたレコメンデーションの精度と妥当性を,統一された潜在空間表現を用いて向上することを目的としている。
論文参考訳（メタデータ） (2024-08-08T04:31:29Z)
Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文参考訳（メタデータ） (2024-07-21T13:26:30Z)
Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。 1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文参考訳（メタデータ） (2024-07-16T13:30:14Z)
Enhance the Robustness of Text-Centric Multimodal Alignments [4.985886792128721]
本研究では、欠落したエントリ、ノイズ、欠落したモダリティの存在下でのマルチモーダル表現の品質とロバスト性を評価する。本稿では,従来の手法に比べて頑健性に優れたテキスト中心型手法を提案する。
論文参考訳（メタデータ） (2024-07-06T10:12:29Z)
Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文参考訳（メタデータ） (2024-02-28T16:35:52Z)
ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文参考訳（メタデータ） (2024-01-12T06:28:54Z)
TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文参考訳（メタデータ） (2023-11-08T10:34:16Z)
Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文参考訳（メタデータ） (2023-05-10T14:54:29Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
Obtaining Better Static Word Embeddings Using Contextual Embedding Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文参考訳（メタデータ） (2021-06-08T12:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。