論文の概要: One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning
- arxiv url: http://arxiv.org/abs/2408.03001v2
- Date: Mon, 23 Dec 2024 09:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:26.554033
- Title: One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning
- Title(参考訳): LLMニューラルチューニングによるマルチモーダルタスクの統合
- Authors: Hao Sun, Yu Song, Jiaqing Liu, Jihong Hu, Yen-Wei Chen, Lanfen Lin,
- Abstract要約: 複数のタスクやモダリティを同時に処理する統合フレームワークを提案する。
このフレームワークでは、すべてのモダリティとタスクは統一トークンとして表現され、単一の一貫したアプローチでトレーニングされる。
複数のタスクラベルを付加したサンプルを含む新しいベンチマークMMUDを提案する。
複数のタスクを合理化して効率的に同時に処理できることを実証する。
- 参考スコア(独自算出の注目度): 16.96824902454355
- License:
- Abstract: Large-scale models have exhibited remarkable capabilities across diverse domains, including automated medical services and intelligent customer support. However, as most large models are trained on single-modality corpora, enabling them to effectively process and understand multimodal signals remains a significant challenge. Current research often focuses on designing task-specific or scenario-specific tuning strategies, which limits the scalability and versatility. To address this limitation, we propose a unified framework that concurrently handles multiple tasks and modalities. In this framework, all modalities and tasks are represented as unified tokens and trained using a single, consistent approach. To enable efficient multitask processing, we introduce a novel tuning strategy termed neural tuning, inspired by the concept of sparse distributed representation in the human brain, where only specific subsets of neurons are activated for each task. Furthermore, to advance research in multimodal and multitask learning, we present a new benchmark, MMUD, which includes samples annotated with multiple task labels spanning reasoning segmentation, referring segmentation, image captioning, and text-to-image generation. By applying neural tuning to pretrained large models on the MMUD benchmark, we demonstrate the ability to handle multiple tasks simultaneously in a streamlined and efficient manner. All models, code, and datasets will be released publicly upon publication, fostering further research and innovation in this field.
- Abstract(参考訳): 大規模なモデルでは、自動化された医療サービスやインテリジェントな顧客サポートなど、さまざまな領域で顕著な能力を発揮している。
しかし、ほとんどの大規模モデルは単一モダリティコーパスで訓練されているため、効果的に処理し、マルチモーダル信号を理解することは大きな課題である。
現在の研究は、しばしば、スケーラビリティと汎用性を制限するタスク特化またはシナリオ特化チューニング戦略の設計に焦点を当てている。
この制限に対処するため,複数のタスクやモダリティを同時に処理する統合フレームワークを提案する。
このフレームワークでは、すべてのモダリティとタスクは統一トークンとして表現され、単一の一貫したアプローチでトレーニングされる。
効率的なマルチタスク処理を実現するために,脳内のスパース分布表現の概念に着想を得た,ニューラルチューニングと呼ばれる新しいチューニング戦略を導入する。
さらに,マルチモーダル学習とマルチタスク学習の研究を進めるために,複数のタスクラベルをアノテートしたMMUD,セグメンテーション,画像キャプション,テキスト・ツー・イメージ生成などを提案する。
MMUDベンチマークでトレーニング済みの大規模モデルにニューラルチューニングを適用することで,複数のタスクを合理化,効率的な方法で同時に処理できることを実証する。
すべてのモデル、コード、データセットが公開時に公開され、この分野におけるさらなる研究とイノベーションが促進される。
関連論文リスト
- 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文 参考訳(メタデータ) (2024-06-13T17:59:42Z) - Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。
MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。
MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文 参考訳(メタデータ) (2024-05-28T07:24:56Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks [31.59812777504438]
提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。
我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
論文 参考訳(メタデータ) (2023-09-25T13:16:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Multi-Task Dynamical Systems [5.881614676989161]
時系列データセットは、しばしば同じドメインから、異なるエンティティから、様々なシーケンスから構成される。
本稿では,マルチタスク学習(MTL)を時系列モデルに拡張する一般的な手法であるMTDSについて述べる。
MTDSをマルチタスクリカレントニューラルネットワーク(RNN)を用いて歩く人々のモーションキャプチャーデータに適用し,マルチタスク薬理力学モデルを用いた患者薬物応答データに適用した。
論文 参考訳(メタデータ) (2022-10-08T13:37:55Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。