論文の概要: Enhancing Subtask Performance of Multi-modal Large Language Model
- arxiv url: http://arxiv.org/abs/2308.16474v1
- Date: Thu, 31 Aug 2023 05:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 15:42:13.776465
- Title: Enhancing Subtask Performance of Multi-modal Large Language Model
- Title(参考訳): マルチモーダル大規模言語モデルのサブタスク性能向上
- Authors: Yongqiang Zhao, Zhenyu Li, Feng Zhang, Xinhai Xu, Donghong Liu
- Abstract要約: MLLM(Multi-modal Large Language Model)は、マルチモーダルデータを扱う能力を持つLarge Language Model(LLM)から拡張されたモデルである。
本研究では、異なる評価手法に基づいて、同一サブタスクに焦点を当てた複数の事前学習モデルを選択する。
同じサブタスクに対する複数の事前学習モデルの結果をLLMを用いて比較し、そのサブタスクの結果として最もよい結果を選択する。
- 参考スコア(独自算出の注目度): 12.033301861738952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Model (MLLM) refers to a model expanded from a
Large Language Model (LLM) that possesses the capability to handle and infer
multi-modal data. Current MLLMs typically begin by using LLMs to decompose
tasks into multiple subtasks, then employing individual pre-trained models to
complete specific subtasks, and ultimately utilizing LLMs to integrate the
results of each subtasks to obtain the results of the task. In real-world
scenarios, when dealing with large projects, it is common practice to break
down the project into smaller sub-projects, with different teams providing
corresponding solutions or results. The project owner then decides which
solution or result to use, ensuring the best possible outcome for each subtask
and, consequently, for the entire project. Inspired by this, this study
considers selecting multiple pre-trained models to complete the same subtask.
By combining the results from multiple pre-trained models, the optimal subtask
result is obtained, enhancing the performance of the MLLM. Specifically, this
study first selects multiple pre-trained models focused on the same subtask
based on distinct evaluation approaches, and then invokes these models in
parallel to process input data and generate corresponding subtask results.
Finally, the results from multiple pre-trained models for the same subtask are
compared using the LLM, and the best result is chosen as the outcome for that
subtask. Extensive experiments are conducted in this study using GPT-4
annotated datasets and human-annotated datasets. The results of various
evaluation metrics adequately demonstrate the effectiveness of the proposed
approach in this paper.
- Abstract(参考訳): MLLM(Multi-modal Large Language Model)は、マルチモーダルデータを扱う能力を持つLarge Language Model(LLM)から拡張されたモデルである。
現在のMLLMは、通常、LSMを使用してタスクを複数のサブタスクに分解し、個別のトレーニング済みモデルを使用して特定のサブタスクを完成させ、最終的に各サブタスクの結果を統合することでタスクの結果を得る。
現実のシナリオでは、大規模なプロジェクトを扱う場合、プロジェクトを小さなサブプロジェクトに分割し、異なるチームが対応するソリューションや結果を提供するのが一般的です。
プロジェクトオーナーは、どのソリューションまたは結果を使うかを決め、各サブタスクで最高の結果が得られ、その結果、プロジェクト全体の結果が得られます。
このことから着想を得た本研究では,複数の事前学習モデルを選択して同じサブタスクを完了させる。
複数の事前学習モデルの結果を組み合わせることで、最適サブタスク結果を得ることができ、MLLMの性能を向上させることができる。
具体的には、まず、異なる評価アプローチに基づいて、同一サブタスクに焦点を当てた複数の事前学習モデルを選択し、これらのモデルを並列に実行し、入力データを処理し、対応するサブタスク結果を生成する。
最後に、同一サブタスクに対する複数の事前学習モデルの結果をLLMを用いて比較し、そのサブタスクの結果として最良の結果を選択する。
GPT-4アノテートデータセットとヒトアノテートデータセットを用いた大規模な実験を行った。
本稿では,様々な評価指標の結果から,提案手法の有効性を十分に示す。
関連論文リスト
- A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Large Language Model Routing with Benchmark Datasets [40.42044096089315]
通常、単一のモデルがすべてのタスクやユースケースで最高の精度を達成することはない。
そこで我々は,この選択のための"ルータ"モデルを学習するために,ベンチマークデータセットを再利用した新しい定式化を提案する。
本稿では,この問題をバイナリ分類タスクの集合に還元できることを示す。
論文 参考訳(メタデータ) (2023-09-27T17:08:40Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - Multi-task Active Learning for Pre-trained Transformer-based Models [22.228551277598804]
複数のタスクをひとつのモデルで共同で学習するマルチタスク学習により、NLPモデルは複数のアノテーションから情報を共有することができる。
このテクニックでは、コストがかかり、面倒な複数のアノテーションスキームで同じテキストに注釈を付ける必要がある。
アクティブラーニング(AL)は、ラベルなし例を反復的に選択することで、アノテーションプロセスの最適化を実証している。
論文 参考訳(メタデータ) (2022-08-10T14:54:13Z) - The Effect of Diversity in Meta-Learning [79.56118674435844]
少ないショット学習は、少数の例から見れば、新しいタスクに対処できる表現を学習することを目的としている。
近年の研究では,タスク分布がモデルの性能に重要な役割を担っていることが示されている。
タスクの多様性がメタ学習アルゴリズムに与える影響を評価するために,多種多様なモデルとデータセットのタスク分布について検討する。
論文 参考訳(メタデータ) (2022-01-27T19:39:07Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。