Fugu-MT 論文翻訳(概要): Towards Robust Instruction Tuning on Multimodal Large Language Models

論文の概要: Towards Robust Instruction Tuning on Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2402.14492v2
Date: Fri, 14 Jun 2024 13:38:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 19:02:29.825738
Title: Towards Robust Instruction Tuning on Multimodal Large Language Models
Title（参考訳）: マルチモーダルな大言語モデルに基づくロバスト教育に向けて
Authors: Wei Han, Hui Chen, Soujanya Poria,
Abstract要約: 本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。 2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
参考スコア（独自算出の注目度）: 25.506776502317436
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Fine-tuning large language models (LLMs) on multi-task instruction-following data has been proven to be a powerful learning paradigm for improving their zero-shot capabilities on new tasks. Recent works about high-quality instruction-following data generation and selection require amounts of human labor to conceive model-understandable instructions for the given tasks and carefully filter the LLM-generated data. In this work, we introduce an automatic instruction augmentation method named INSTRAUG in multimodal tasks. It starts from a handful of basic and straightforward meta instructions but can expand an instruction-following dataset by 30 times. Results on two popular multimodal instructionfollowing benchmarks MULTIINSTRUCT and InstructBLIP show that INSTRAUG can significantly improve the alignment of multimodal large language models (MLLMs) across 12 multimodal tasks, which is even equivalent to the benefits of scaling up training data multiple times.
Abstract（参考訳）: マルチタスク命令追従データ上でのLLM(Fun-tuning large language model)は、新しいタスクにおけるゼロショット機能を改善するための強力な学習パラダイムであることが証明されている。高品質な命令追従データ生成と選択に関する最近の研究は、与えられたタスクに対するモデル理解可能な命令を判断し、LLM生成データを慎重にフィルタリングするために、人間の労力を必要とする。本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。基本的で簡単なメタ命令から始まるが、命令追跡データセットを30倍拡張することができる。 MultiINSTRUCTとInstructBLIPの2つの人気のあるマルチモーダル命令フォローベンチマークの結果から、INSTRAUGは12のマルチモーダルタスクにわたるマルチモーダル言語モデル(MLLM)のアライメントを大幅に改善できることが示された。

関連論文リスト

MDIT: A Model-free Data Interpolation Method for Diverse Instruction Tuning [20.79390984800288]
大規模言語モデル(LLM)は、様々なタスクにまたがってますます適用されてきている。本稿では,多種多様な命令チューニングのためのモデルフリーデータ手法MDITを提案する。複数のベンチマークタスクにおいて,本手法が優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2025-04-09T21:28:17Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Models [79.0546136194314]
マルチモーダルな大規模言語モデルのゼロショットタスクの一般化を改善するために,新しい命令チューニング手法を提案する。提案手法の有効性を,言語と視覚の両面にまたがる9つの未知のデータセットに対して評価した。
論文参考訳（メタデータ） (2024-11-15T20:09:59Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文参考訳（メタデータ） (2024-10-25T23:38:28Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文参考訳（メタデータ） (2024-07-22T17:55:22Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
Mosaic-IT: Free Compositional Data Augmentation Improves Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング、Mosaic-IT)は、人間/モデルなしのコンポジションデータ拡張手法である。 Mosaic-ITは、既存の命令チューニングデータから、ランダムにリッチで多様な拡張を生成する。評価の結果,モザイクITの性能と訓練効率が向上した。
論文参考訳（メタデータ） (2024-05-22T04:08:20Z)
INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文参考訳（メタデータ） (2024-01-12T12:10:28Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning [24.741736629886564]
インストラクションチューニングは、命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムである。 MUL-TIINSTRUCTは,最初のマルチモーダル・インストラクション・チューニング・ベンチマーク・データセットである。各種マルチモーダルタスクにおけるゼロショット性能と,テキストのみの命令データセットからの変換学習の利点を示す。
論文参考訳（メタデータ） (2022-12-21T05:17:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。