論文の概要: M$^3$IT: A Large-Scale Dataset towards Multi-Modal Multilingual
Instruction Tuning
- arxiv url: http://arxiv.org/abs/2306.04387v2
- Date: Thu, 8 Jun 2023 13:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 10:35:23.072909
- Title: M$^3$IT: A Large-Scale Dataset towards Multi-Modal Multilingual
Instruction Tuning
- Title(参考訳): M$^3$IT:マルチモーダル多言語指導チューニングに向けた大規模データセット
- Authors: Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren,
Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu
- Abstract要約: M$3$ITデータセットは、2.4万のインスタンスと400の手作業によるタスク命令を含む、慎重にキュレートされた40のデータセットで構成されている。
M$3$ITは、タスクカバレッジ、命令番号、インスタンススケールに関する以前のデータセットを上回る。
我々は、M$3$ITデータセットでトレーニングされたVLMモデルであるYing-VLMを開発し、複雑な質問に答える可能性を示している。
- 参考スコア(独自算出の注目度): 45.14120897489634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning has significantly advanced large language models (LLMs)
such as ChatGPT, enabling them to align with human instructions across diverse
tasks. However, progress in open vision-language models (VLMs) has been limited
due to the scarcity of high-quality instruction datasets. To tackle this
challenge and promote research in the vision-language field, we introduce the
Multi-Modal, Multilingual Instruction Tuning (M$^3$IT) dataset, designed to
optimize VLM alignment with human instructions. Our M$^3$IT dataset comprises
40 carefully curated datasets, including 2.4 million instances and 400 manually
written task instructions, reformatted into a vision-to-text structure. Key
tasks are translated into 80 languages with an advanced translation system,
ensuring broader accessibility. M$^3$IT surpasses previous datasets regarding
task coverage, instruction number and instance scale. Moreover, we develop
Ying-VLM, a VLM model trained on our M$^3$IT dataset, showcasing its potential
to answer complex questions requiring world knowledge, generalize to unseen
video tasks, and comprehend unseen instructions in Chinese. We have
open-sourced the dataset to encourage further research.
- Abstract(参考訳): インストラクションチューニングはChatGPTのような大きな言語モデル(LLM)が大幅に進歩し、様々なタスクにまたがる人間の命令と整合することを可能にする。
しかし、高品質な命令データセットの不足により、オープンビジョン言語モデル(VLM)の進歩は制限されている。
この課題に対処し、視覚言語分野の研究を促進するために、人間の指示によるVLMアライメントを最適化するために設計されたM$^3$IT(Multi-Modal, Multilingual Instruction Tuning)データセットを導入する。
私たちのm$^3$itデータセットは、240万のインスタンスと400の手作業によるタスク命令を含む40の注意深くキュレートされたデータセットで構成されています。
主要なタスクは80の言語に翻訳され、高度な翻訳システムにより幅広いアクセシビリティが保証される。
M$^3$ITは、タスクカバレッジ、命令番号、インスタンススケールに関する以前のデータセットを上回る。
さらに,我々のM$3$ITデータセットに基づいて訓練されたVLMモデルであるYing-VLMを開発し,世界的知識を必要とする複雑な疑問に答える可能性を示し,未確認のビデオタスクに一般化し,中国語で未知の指示を理解する。
我々は、さらなる研究を促進するためにデータセットをオープンソース化した。
関連論文リスト
- mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans [27.84922167294656]
言語固有の知識と常識のためにデータセットをキュレートすることは困難である。
現在の多言語データセットの多くは翻訳によって作成されており、そのような言語固有の側面を評価できない。
CSQAの構築プロセスに基づくマルチ言語コモンセンスQA(mCSQA)を提案する。
論文 参考訳(メタデータ) (2024-06-06T16:14:54Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。