論文の概要: Personalized Multimodal Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2412.02142v1
- Date: Tue, 03 Dec 2024 03:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:54.638111
- Title: Personalized Multimodal Large Language Models: A Survey
- Title(参考訳): パーソナライズされたマルチモーダル大言語モデル:サーベイ
- Authors: Junda Wu, Hanjia Lyu, Yu Xia, Zhehao Zhang, Joe Barrow, Ishita Kumar, Mehrnoosh Mirtaheri, Hongjie Chen, Ryan A. Rossi, Franck Dernoncourt, Tong Yu, Ruiyi Zhang, Jiuxiang Gu, Nesreen K. Ahmed, Yu Wang, Xiang Chen, Hanieh Deilamsalehy, Namyong Park, Sungchul Kim, Huanrui Yang, Subrata Mitra, Zhengmian Hu, Nedim Lipka, Dang Nguyen, Yue Zhao, Jiebo Luo, Julian McAuley,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。
本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
- 参考スコア(独自算出の注目度): 127.9521218125761
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have become increasingly important due to their state-of-the-art performance and ability to integrate multiple data modalities, such as text, images, and audio, to perform complex tasks with high accuracy. This paper presents a comprehensive survey on personalized multimodal large language models, focusing on their architecture, training methods, and applications. We propose an intuitive taxonomy for categorizing the techniques used to personalize MLLMs to individual users, and discuss the techniques accordingly. Furthermore, we discuss how such techniques can be combined or adapted when appropriate, highlighting their advantages and underlying rationale. We also provide a succinct summary of personalization tasks investigated in existing research, along with the evaluation metrics commonly used. Additionally, we summarize the datasets that are useful for benchmarking personalized MLLMs. Finally, we outline critical open challenges. This survey aims to serve as a valuable resource for researchers and practitioners seeking to understand and advance the development of personalized multimodal large language models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,テキストや画像,音声などの複数のデータモダリティを統合して,複雑なタスクを高精度に実行可能にする技術として,ますます重要になっている。
本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
本稿では,MLLMを個人化するためのテクニックを分類するための直感的な分類法を提案し,その手法について考察する。
さらに,このような手法が適切な場合にどのように組み合わせられるかについて議論し,その利点と基礎となる根拠を明らかにする。
また,既存研究におけるパーソナライズ課題の簡潔な要約と,一般的な評価指標について述べる。
さらに、パーソナライズされたMLLMのベンチマークに有用なデータセットを要約する。
最後に、重要なオープン課題を概説する。
この調査は、パーソナライズされたマルチモーダルな大規模言語モデルの理解と発展を目指す研究者や実践者にとって、貴重な情報源となることを目的としている。
関連論文リスト
- Personalization of Large Language Models: A Survey [131.00650432814268]
大規模言語モデル(LLM)のパーソナライゼーションは、最近、広範囲のアプリケーションでますます重要になっている。
パーソナライズ LLM に関する既存の研究の多くは、(a)パーソナライズされたテキスト生成、または(b)レコメンデーションシステムのようなパーソナライズに関連する下流アプリケーションに LLM を活用することに集中している。
パーソナライズされたLSM使用のための分類を導入し、主要な違いと課題を要約する。
論文 参考訳(メタデータ) (2024-10-29T04:01:11Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - The Revolution of Multimodal Large Language Models: A Survey [46.84953515670248]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティをシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models [33.50873478562128]
LLM(Large Language Models)は、計算、メモリ、エネルギー、金融資源の高消費に課題をもたらす。
本調査は, LLMの資源効率向上を目的とした多種多様な手法を概観することにより, これらの課題を体系的に解決することを目的としている。
論文 参考訳(メタデータ) (2024-01-01T01:12:42Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。