Fugu-MT 論文翻訳(概要): HEMM: Holistic Evaluation of Multimodal Foundation Models

論文の概要: HEMM: Holistic Evaluation of Multimodal Foundation Models

arxiv url: http://arxiv.org/abs/2407.03418v1
Date: Wed, 3 Jul 2024 18:00:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 20:10:41.368638
Title: HEMM: Holistic Evaluation of Multimodal Foundation Models
Title（参考訳）: HEMM:マルチモーダル基礎モデルの全体的評価
Authors: Paul Pu Liang, Akshay Goindani, Talha Chafekar, Leena Mathur, Haofei Yu, Ruslan Salakhutdinov, Louis-Philippe Morency,
Abstract要約: マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
参考スコア（独自算出の注目度）: 91.60364024897653
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal foundation models that can holistically process text alongside images, video, audio, and other sensory modalities are increasingly used in a variety of real-world applications. However, it is challenging to characterize and study progress in multimodal foundation models, given the range of possible modeling decisions, tasks, and domains. In this paper, we introduce Holistic Evaluation of Multimodal Models (HEMM) to systematically evaluate the capabilities of multimodal foundation models across a set of 3 dimensions: basic skills, information flow, and real-world use cases. Basic multimodal skills are internal abilities required to solve problems, such as learning interactions across modalities, fine-grained alignment, multi-step reasoning, and the ability to handle external knowledge. Information flow studies how multimodal content changes during a task through querying, translation, editing, and fusion. Use cases span domain-specific challenges introduced in real-world multimedia, affective computing, natural sciences, healthcare, and human-computer interaction applications. Through comprehensive experiments across the 30 tasks in HEMM, we (1) identify key dataset dimensions (e.g., basic skills, information flows, and use cases) that pose challenges to today's models, and (2) distill performance trends regarding how different modeling dimensions (e.g., scale, pre-training data, multimodal alignment, pre-training, and instruction tuning objectives) influence performance. Our conclusions regarding challenging multimodal interactions, use cases, and tasks requiring reasoning and external knowledge, the benefits of data and model scale, and the impacts of instruction tuning yield actionable insights for future work in multimodal foundation models.
Abstract（参考訳）: 画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理できるマルチモーダル基礎モデルは、様々な現実世界のアプリケーションでますます使われている。しかし、モデリング決定やタスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。本稿では, 基本スキル, 情報フロー, 実世界のユースケースの3次元にわたって, マルチモーダル基礎モデルの能力を体系的に評価するために, HEMM(Holistic Evaluation of Multimodal Models)を導入する。基本的なマルチモーダルスキルは、モダリティ間の相互作用の学習、きめ細かいアライメント、多段階推論、外部知識を扱う能力など、問題を解決するのに必要な内部能力である。情報フローは、クエリ、翻訳、編集、融合を通じて、タスク中にマルチモーダルコンテンツがどのように変化するかを研究する。ユースケースは、現実世界のマルチメディア、感情コンピューティング、自然科学、ヘルスケア、人間とコンピュータのインタラクションアプリケーションで導入されたドメイン固有の課題にまたがる。 HEMMにおける30のタスクを対象とした総合的な実験を通じて,(1)今日のモデルに課題をもたらす重要なデータセット次元(基本的なスキル,情報フロー,ユースケース)を特定し,(2)異なるモデリング次元(例えば,スケール,事前学習データ,マルチモーダルアライメント,事前学習,指導訓練目標)がパフォーマンスに与える影響について,パフォーマンス傾向を調査する。マルチモーダルなインタラクションの挑戦,ユースケース,推論と外部知識を必要とするタスク,データとモデルスケールのメリット,および指導チューニングの影響は,将来のマルチモーダル基盤モデルにおける実用的な洞察をもたらす。

関連論文リスト

Multi-modal Co-learning for Earth Observation: Enhancing single-modality models via modality collaboration [9.66105329596482]
推論の特定のモダリティを目標にすることなく、様々なタスクを一般化できる新しいマルチモーダル・コラーニングフレームワークを提案する。我々のアプローチは、対照的かつモダリティの識別学習を組み合わせ、単一のモダリティモデルを誘導し、内部モデル多様体をモダリティ共有およびモダリティ固有情報に構造化する。
論文参考訳（メタデータ） (2025-10-22T13:29:32Z)
A Survey of AI for Materials Science: Foundation Models, LLM Agents, Datasets, and Tools [15.928285656168422]
ファンデーションモデル(FM)は、科学的発見のためにスケーラブルで汎用的でマルチモーダルなAIシステムを実現する。この調査は、この成長分野をサポートする基盤モデル、エージェントシステム、データセット、計算ツールの包括的概要を提供する。
論文参考訳（メタデータ） (2025-06-25T18:10:30Z)
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation [64.85885900375483]
MEXAは、エキスパートモデルのモダリティおよびタスク対応アグリゲーションを実行する、トレーニング不要のフレームワークである。我々は,ビデオ推論,オーディオ推論,3D理解,医用QAなど,多様なマルチモーダルベンチマークに対するアプローチを評価した。
論文参考訳（メタデータ） (2025-06-20T16:14:13Z)
A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications [7.414857515253022]
本稿では,ゲーティング機能,エキスパートネットワーク,ルーティング機構,トレーニング戦略,システム設計など,MoEの基本設計を紹介する。次に,継続学習,メタ学習,マルチタスク学習,強化学習など,機械学習の重要なパラダイムにおけるMoEのアルゴリズム設計について検討する。
論文参考訳（メタデータ） (2025-03-10T10:08:55Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy [2.294223504228228]
人工知能の急速に発展する分野であるマルチモーダル学習は、より汎用的で堅牢なシステムの構築を目指している。多くの感覚を通じて情報を同化する人間の能力に触発され、テキストからビデオへの変換、視覚的質問応答、画像キャプションなどの応用が可能となる。マルチモーダル言語モデル(MLLM)をサポートするデータセットの最近の発展について概説する。
論文参考訳（メタデータ） (2024-12-23T18:15:19Z)
From Efficient Multimodal Models to World Models: A Survey [28.780451336834876]
マルチモーダル大規模モデル(MLM)は、強力な言語モデルとマルチモーダル学習を組み合わせた重要な研究対象となっている。このレビューでは、人工知能の実現におけるその可能性を強調し、大規模指導における最新の発展と課題について考察する。
論文参考訳（メタデータ） (2024-06-27T15:36:43Z)
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文参考訳（メタデータ） (2024-02-05T12:47:09Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文参考訳（メタデータ） (2023-11-22T05:15:12Z)
Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文参考訳（メタデータ） (2023-03-07T18:44:07Z)
Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文参考訳（メタデータ） (2023-02-01T11:48:34Z)
MultiViz: An Analysis Benchmark for Visualizing and Understanding Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。 MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文参考訳（メタデータ） (2022-06-30T18:42:06Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。