論文の概要: Language Model Mapping in Multimodal Music Learning: A Grand Challenge Proposal
- arxiv url: http://arxiv.org/abs/2503.00427v1
- Date: Sat, 01 Mar 2025 10:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:14:35.175196
- Title: Language Model Mapping in Multimodal Music Learning: A Grand Challenge Proposal
- Title(参考訳): マルチモーダル音楽学習における言語モデルマッピングの提案
- Authors: Daniel Chin, Gus Xia,
- Abstract要約: テキストモデルマッピング(LMM)の課題を提案する。
まず LMM の基本構成を紹介し, クロスモーダルアライメントのより深い側面を明らかにすることを目標としている。
次に,音楽がLMM研究を行う理想的な分野である理由について議論する。
- 参考スコア(独自算出の注目度): 3.82522946601883
- License:
- Abstract: We have seen remarkable success in representation learning and language models (LMs) using deep neural networks. Many studies aim to build the underlying connections among different modalities via the alignment and mappings at the token or embedding level, but so far, most methods are very data-hungry, limiting their performance in domains such as music where paired data are less abundant. We argue that the embedding alignment is only at the surface level of multimodal alignment. In this paper, we propose a grand challenge of \textit{language model mapping} (LMM), i.e., how to map the essence implied in the LM of one domain to the LM of another domain under the assumption that LMs of different modalities are tracking the same underlying phenomena. We first introduce a basic setup of LMM, highlighting the goal to unveil a deeper aspect of cross-modal alignment as well as to achieve more sample-efficiency learning. We then discuss why music is an ideal domain in which to conduct LMM research. After that, we connect LMM in music with a more general and challenging scientific problem of \textit{learning to take actions based on both sensory input and abstract symbols}, and in the end, present an advanced version of the challenge problem setup.
- Abstract(参考訳): 深層ニューラルネットワークを用いた表現学習と言語モデル(LM)で顕著な成功を収めた。
多くの研究は、トークンや埋め込みレベルでのアライメントやマッピングを通じて、異なるモダリティ間の基盤となる接続を構築することを目的としている。
埋め込みアライメントはマルチモーダルアライメントの表面レベルのみであると主張する。
本稿では,あるドメインのLMに含まれる本質を,異なるモダリティのLMが同じ基礎現象を追跡しているという仮定のもとに,別のドメインのLMにマップする方法を提案する。
まず LMM の基本構成を紹介し, クロスモーダルアライメントのより深い側面を明らかにするとともに, よりサンプル効率のよい学習を実現することを目標としている。
次に,音楽がLMM研究を行う理想的な分野である理由について議論する。
その後,音楽におけるLMMを,知覚入力と抽象シンボルの両方に基づく行動を取るために,より汎用的で困難な科学的な問題と結びつけ,最終的に課題解決の先進版を提示する。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - SGW-based Multi-Task Learning in Vision Tasks [8.459976488960269]
データセットの規模が拡大し、タスクの複雑さが増すにつれ、知識の共有はますます困難になってきている。
情報ボトルネック知識抽出モジュール(KEM)を提案する。
このモジュールは,情報の流れを制約することでタスク間干渉を減らすことを目的としており,計算複雑性を低減する。
論文 参考訳(メタデータ) (2024-10-03T13:56:50Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - More Diverse Means Better: Multimodal Deep Learning Meets Remote Sensing
Imagery Classification [43.35966675372692]
ディープネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法を示します。
特に、深層ネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法と同様に、異なる融合戦略を示す。
我々のフレームワークは画素単位の分類タスクに限らず、畳み込みニューラルネットワーク(CNN)を用いた空間情報モデリングにも適用できる。
論文 参考訳(メタデータ) (2020-08-12T17:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。