論文の概要: Vela: Scalable Embeddings with Voice Large Language Models for Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2506.14445v1
- Date: Tue, 17 Jun 2025 12:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.457521
- Title: Vela: Scalable Embeddings with Voice Large Language Models for Multimodal Retrieval
- Title(参考訳): Vela: マルチモーダル検索のための音声大言語モデルを備えたスケーラブルな埋め込み
- Authors: Ruofan Hu, Yan Xia, Minjie Hong, Jieming Zhu, Bo Chen, Xiaoda Yang, Minghui Fang, Tao Jin,
- Abstract要約: Velaは、ユニバーサルマルチモーダル埋め込みの生成にMLLMを適用するように設計されたフレームワークである。
そこで本研究では,テキストペアにのみモデルをトレーニングする単一モダリティトレーニング手法を提案する。
実験の結果,Velaは標準音声検索タスクにおいて従来のCLAPモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 14.927023753405622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have seen substantial progress in recent years. However, their ability to represent multimodal information in the acoustic domain remains underexplored. In this work, we introduce Vela, a novel framework designed to adapt MLLMs for the generation of universal multimodal embeddings. By leveraging MLLMs with specially crafted prompts and selected in-context learning examples, Vela effectively bridges the modality gap across various modalities. We then propose a single-modality training approach, where the model is trained exclusively on text pairs. Our experiments show that Vela outperforms traditional CLAP models in standard text-audio retrieval tasks. Furthermore, we introduce new benchmarks that expose CLAP models' limitations in handling long texts and complex retrieval tasks. In contrast, Vela, by harnessing the capabilities of MLLMs, demonstrates robust performance in these scenarios. Our code will soon be available.
- Abstract(参考訳): MLLM(Multimodal large language model)は近年大きく進歩している。
しかし、音響領域におけるマルチモーダル情報を表現する能力はいまだ解明されていない。
本稿では,MLLMを汎用なマルチモーダル埋め込みに適応させる新しいフレームワークであるVelaを紹介する。
MLLMを特別なプロンプトで活用し、コンテキスト内学習の例を選択することで、Velaは様々なモダリティ間でのモダリティギャップを効果的に橋渡しする。
そこで本研究では,テキストペアにのみモデルをトレーニングする単一モダリティトレーニング手法を提案する。
実験の結果,Velaは標準音声検索タスクにおいて従来のCLAPモデルよりも優れていた。
さらに、長いテキストや複雑な検索タスクを扱う際のCLAPモデルの制限を明らかにする新しいベンチマークを導入する。
対照的に、VelaはMLLMの能力を活用して、これらのシナリオで堅牢なパフォーマンスを示している。
私たちのコードはまもなく利用可能になります。
関連論文リスト
- TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Meta-learning For Vision-and-language Cross-lingual Transfer [14.594704809280984]
バイソン言語モデルのための新しいメタラーニング微調整フレームワークを提案する。
我々のフレームワークは、現在のPVLMを視覚言語シナリオにおける新しい言語に迅速に適応させる。
本手法は, ゼロショットと少数ショットのクロスランガル転送において, 現在のPVLMの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-24T07:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。