Fugu-MT 論文翻訳(概要): Multitask and Multimodal Neural Tuning for Large Models

論文の概要: Multitask and Multimodal Neural Tuning for Large Models

arxiv url: http://arxiv.org/abs/2408.03001v1
Date: Tue, 6 Aug 2024 07:19:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 14:49:26.939959
Title: Multitask and Multimodal Neural Tuning for Large Models
Title（参考訳）: 大規模モデルのためのマルチタスクとマルチモーダルニューラルチューニング
Authors: Hao Sun, Yu Song, Jihong Hu, Yen-Wei Chen, Lanfen Lin,
Abstract要約: 多様なマルチモーダルタスクを同時に処理するために設計されたニューラルチューニングと呼ばれる新しいチューニング手法を提案する。ニューラルチューニングは、タスクごとにニューロンの特定のサブセットのみが活性化される、人間の脳内のスパース分散表現をエミュレートする。本稿では,各サンプルに複数のタスクラベルを付加した新しいベンチマークMMUDを提案する。
参考スコア（独自算出の注目度）: 15.34250271841119
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, large-scale multimodal models have demonstrated impressive capabilities across various domains. However, enabling these models to effectively perform multiple multimodal tasks simultaneously remains a significant challenge. To address this, we introduce a novel tuning method called neural tuning, designed to handle diverse multimodal tasks concurrently, including reasoning segmentation, referring segmentation, image captioning, and text-to-image generation. Neural tuning emulates sparse distributed representation in human brain, where only specific subsets of neurons are activated for each task. Additionally, we present a new benchmark, MMUD, where each sample is annotated with multiple task labels. By applying neural tuning to pretrained large models on the MMUD benchmark, we achieve simultaneous task handling in a streamlined and efficient manner. All models, code, and datasets will be publicly available after publication, facilitating further research and development in this field.
Abstract（参考訳）: 近年、大規模マルチモーダルモデルは様々な領域にまたがって印象的な機能を示している。しかし、これらのモデルが複数のマルチモーダルタスクを同時に効果的に実行できるようにすることは大きな課題である。そこで本研究では,セグメント化の推論,セグメンテーションの参照,画像キャプション,テキスト・ツー・イメージ生成など,多様なマルチモーダルタスクを同時に処理するニューラルチューニング手法を提案する。ニューラルチューニングは、タスクごとにニューロンの特定のサブセットのみが活性化される、人間の脳内のスパース分散表現をエミュレートする。さらに,各サンプルに複数のタスクラベルを付加した新しいベンチマークMMUDを提案する。 MMUDベンチマークで事前学習した大規模モデルにニューラルチューニングを適用することにより、並列処理を合理化して効率的に行うことができる。すべてのモデル、コード、データセットは公開後公開され、この分野におけるさらなる研究と開発が促進される。

関連論文リスト

M3Net: Multimodal Multi-task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving [48.17490295484055]
M3Netは、自動運転の検知、セグメンテーション、および3D占有率予測に同時に取り組む新しいネットワークである。 M3NetはnuScenesベンチマークで最先端のマルチタスク学習性能を達成する。
論文参考訳（メタデータ） (2025-03-23T15:08:09Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model [11.885204227946549]
統一表現を用いて様々なタスクを表現するために設計された包括的モデルを提案する。本モデルは,ユーザ指示の暗黙的な意図を理解する上で,強力な能力を示す。私たちのアプローチは、例外的なスケーラビリティと汎用性を示します。
論文参考訳（メタデータ） (2024-08-05T14:27:39Z)
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文参考訳（メタデータ） (2024-06-13T17:59:42Z)
Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。 MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。 MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文参考訳（メタデータ） (2024-05-28T07:24:56Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning [29.88567810099265]
マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。 CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
論文参考訳（メタデータ） (2023-12-14T03:33:02Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks [31.59812777504438]
提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
論文参考訳（メタデータ） (2023-09-25T13:16:57Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文参考訳（メタデータ） (2022-12-08T17:07:09Z)
Multi-Task Dynamical Systems [5.881614676989161]
時系列データセットは、しばしば同じドメインから、異なるエンティティから、様々なシーケンスから構成される。本稿では,マルチタスク学習(MTL)を時系列モデルに拡張する一般的な手法であるMTDSについて述べる。 MTDSをマルチタスクリカレントニューラルネットワーク(RNN)を用いて歩く人々のモーションキャプチャーデータに適用し,マルチタスク薬理力学モデルを用いた患者薬物応答データに適用した。
論文参考訳（メタデータ） (2022-10-08T13:37:55Z)
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2021-12-02T18:59:50Z)
Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文参考訳（メタデータ） (2020-04-25T07:00:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。