論文の概要: iWISDM: Assessing instruction following in multimodal models at scale
- arxiv url: http://arxiv.org/abs/2406.14343v1
- Date: Thu, 20 Jun 2024 14:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 13:22:35.653429
- Title: iWISDM: Assessing instruction following in multimodal models at scale
- Title(参考訳): iWISDM: 大規模マルチモーダルモデルにおける命令追従の評価
- Authors: Xiaoxuan Lei, Lucas Gomez, Hao Yuan Bai, Pouya Bashivan,
- Abstract要約: 我々は,視覚言語タスクの無制限な配列を生成するために,指示された仮想VISual Decision Making (iWISDM)環境を紹介する。
iWISDMを用いて,様々な複雑性レベルにわたる視覚課題に追従する命令の3つの異なるベンチマークをコンパイルした。
本研究は,既存のマルチモーダルモデルと創発的マルチモーダルモデルの両方の命令順守性を評価するための頑健なベンチマークとしてiWISDMを確立した。
- 参考スコア(独自算出の注目度): 1.2320972303448239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to perform complex tasks from detailed instructions is a key to many remarkable achievements of our species. As humans, we are not only capable of performing a wide variety of tasks but also very complex ones that may entail hundreds or thousands of steps to complete. Large language models and their more recent multimodal counterparts that integrate textual and visual inputs have achieved unprecedented success in performing complex tasks. Yet, most existing benchmarks are largely confined to single-modality inputs (either text or vision), narrowing the scope of multimodal assessments, particularly for instruction-following in multimodal contexts. To bridge this gap, we introduce the instructed-Virtual VISual Decision Making (iWISDM) environment engineered to generate a limitless array of vision-language tasks of varying complexity. Using iWISDM, we compiled three distinct benchmarks of instruction following visual tasks across varying complexity levels and evaluated several newly developed multimodal models on these benchmarks. Our findings establish iWISDM as a robust benchmark for assessing the instructional adherence of both existing and emergent multimodal models and highlight a large gap between these models' ability to precisely follow instructions with that of humans.
- Abstract(参考訳): 詳細な指示から複雑なタスクを実行する能力は、我々の種の多くの顕著な成果の鍵となる。
人間としては、幅広いタスクを実行するだけでなく、数百から数千のステップを完了させる、非常に複雑なタスクも実行できます。
テキスト入力と視覚入力を統合した大規模言語モデルとそのより最近のマルチモーダルモデルは、複雑なタスクの実行において前例のない成功を収めた。
しかし、既存のベンチマークのほとんどは単一のモダリティ入力(テキストやビジョン)に限られており、特にマルチモダリティコンテキストでのインストラクションフォローは、マルチモダリティアセスメントの範囲を狭めている。
このギャップを埋めるために,複雑度が変化する視覚言語タスクの制限のない配列を生成するために設計された,指示された仮想VISual Decision Making (iWISDM)環境を導入する。
iWISDMを用いて、様々な複雑さレベルにわたる視覚的タスクに追従する命令の3つの異なるベンチマークをコンパイルし、これらのベンチマーク上で新たに開発された複数のマルチモーダルモデルを評価した。
本研究は,既存のマルチモーダルモデルと創発的マルチモーダルモデルの両方の命令適合性を評価するための頑健なベンチマークとしてiWISDMを確立し,これらのモデルと人間の指示を正確に追従する能力の間に大きなギャップを浮き彫りにした。
関連論文リスト
- Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:47:35Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。