論文の概要: Zero-Shot Recommendations with Pre-Trained Large Language Models for
Multimodal Nudging
- arxiv url: http://arxiv.org/abs/2309.01026v1
- Date: Sat, 2 Sep 2023 21:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 23:34:58.952409
- Title: Zero-Shot Recommendations with Pre-Trained Large Language Models for
Multimodal Nudging
- Title(参考訳): マルチモーダルヌーディングのための事前学習された大規模言語モデルによるゼロショットレコメンデーション
- Authors: Rachel Harrison, Anton Dereventsov, Anton Bibin
- Abstract要約: 本稿では,異なるモーダルの描画入力をテキスト記述として提案し,事前学習したLCMを用いて数値表現を得る。
合成マルチモーダルヌーディング環境へのアプローチを実証する。
- 参考スコア(独自算出の注目度): 0.9069887212265084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for zero-shot recommendation of multimodal non-stationary
content that leverages recent advancements in the field of generative AI. We
propose rendering inputs of different modalities as textual descriptions and to
utilize pre-trained LLMs to obtain their numerical representations by computing
semantic embeddings. Once unified representations of all content items are
obtained, the recommendation can be performed by computing an appropriate
similarity metric between them without any additional learning. We demonstrate
our approach on a synthetic multimodal nudging environment, where the inputs
consist of tabular, textual, and visual data.
- Abstract(参考訳): 生成AI分野における最近の進歩を生かしたマルチモーダル非定常コンテンツのゼロショットレコメンデーション手法を提案する。
テキスト記述として異なるモードの描画入力を提案するとともに,事前学習したLCMを用いて意味埋め込みを計算して数値表現を得る。
すべてのコンテンツ項目の統一表現が得られたら、追加の学習なしにそれらの間の適切な類似度メトリックを計算して推奨を行うことができる。
本稿では,入力が表型,テキスト型,視覚データで構成される合成マルチモーダルヌージング環境において,このアプローチを実証する。
関連論文リスト
- OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Enhance Modality Robustness in Text-Centric Multimodal Alignment with Adversarial Prompting [4.985886792128721]
本研究では, 雑音不完全, 動的入力順序順順, モダリティの欠如に対して, マルチモーダル表現の品質とロバスト性を評価する。
本稿では,従来の頑健なトレーニング手法や事前学習されたマルチモーダル基礎モデルと比較して,頑健さを著しく向上させる新しいテキスト中心の対角訓練手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T08:44:55Z) - MMREC: LLM Based Multi-Modal Recommender System [2.3113916776957635]
本稿では,Large Language Models(LLM)とディープラーニング技術を活用して,レコメンデータシステムを強化する新しい手法を提案する。
提案フレームワークは,マルチモーダル情報処理を取り入れたレコメンデーションの精度と妥当性を,統一された潜在空間表現を用いて向上することを目的としている。
論文 参考訳(メタデータ) (2024-08-08T04:31:29Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Enhance the Robustness of Text-Centric Multimodal Alignments [4.985886792128721]
本研究では、欠落したエントリ、ノイズ、欠落したモダリティの存在下でのマルチモーダル表現の品質とロバスト性を評価する。
本稿では,従来の手法に比べて頑健性に優れたテキスト中心型手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T10:12:29Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。
トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-11-08T10:34:16Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。