Fugu-MT 論文翻訳(概要): i-Code: An Integrative and Composable Multimodal Learning Framework

論文の概要: i-Code: An Integrative and Composable Multimodal Learning Framework

arxiv url: http://arxiv.org/abs/2205.01818v2
Date: Thu, 5 May 2022 06:35:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-06 11:45:49.002989
Title: i-Code: An Integrative and Composable Multimodal Learning Framework
Title（参考訳）: i-Code: 統合的で構成可能なマルチモーダル学習フレームワーク
Authors: Ziyi Yang, Yuwei Fang, Chenguang Zhu, Reid Pryzant, Dongdong Chen, Yu Shi, Yichong Xu, Yao Qian, Mei Gao, Yi-Ling Chen, Liyang Lu, Yujia Xie, Robert Gmyr, Noel Codella, Naoyuki Kanda, Bin Xiao, Lu Yuan, Takuya Yoshioka, Michael Zeng, Xuedong Huang
Abstract要約: i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
参考スコア（独自算出の注目度）: 99.56065789066027
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human intelligence is multimodal; we integrate visual, linguistic, and acoustic signals to maintain a holistic worldview. Most current pretraining methods, however, are limited to one or two modalities. We present i-Code, a self-supervised pretraining framework where users may flexibly combine the modalities of vision, speech, and language into unified and general-purpose vector representations. In this framework, data from each modality are first given to pretrained single-modality encoders. The encoder outputs are then integrated with a multimodal fusion network, which uses novel attention mechanisms and other architectural innovations to effectively combine information from the different modalities. The entire system is pretrained end-to-end with new objectives including masked modality unit modeling and cross-modality contrastive learning. Unlike previous research using only video for pretraining, the i-Code framework can dynamically process single, dual, and triple-modality data during training and inference, flexibly projecting different combinations of modalities into a single representation space. Experimental results demonstrate how i-Code can outperform state-of-the-art techniques on five video understanding tasks and the GLUE NLP benchmark, improving by as much as 11% and demonstrating the power of integrative multimodal pretraining.
Abstract（参考訳）: 人間の知性は多様であり、視覚、言語、音響信号を統合して全体観を維持する。しかし、現在の事前訓練法のほとんどは、1つまたは2つのモードに制限されている。視覚・音声・言語を統一的・汎用的なベクトル表現に柔軟に組み合わせた自己教師付き事前学習フレームワークであるi-codeを提案する。このフレームワークでは、各モダリティからのデータは、まずプリトレーニングされたシングルモダリティエンコーダに与えられる。エンコーダ出力はマルチモーダル融合ネットワークと統合され、新しいアテンション機構と他のアーキテクチャ上の革新を用いて、異なるモダリティからの情報を効果的に結合する。システム全体は、マスクモダリティユニットモデリングとクロスモダリティコントラスト学習を含む新しい目的により、エンドツーエンドで事前訓練されている。事前トレーニングのためにビデオのみを使用した以前の研究とは異なり、i-Codeフレームワークはトレーニングと推論中に動的にシングル、ダブル、トリプルのモダリティデータを処理し、異なるモダリティの組み合わせを柔軟に単一の表現空間に投影する。実験により、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善し、統合的マルチモーダル事前学習のパワーを示す。

関連論文リスト

OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation [74.55725909072903]
我々はOmniSegmentorと呼ばれる新しいマルチモーダル学習フレームワークを提案する。 ImageNetに基づいて、ImageNeXtと呼ばれるマルチモーダル事前学習のための大規模なデータセットを組み立てる。様々なシナリオにまたがってモデルの知覚能力を一貫して増幅する、普遍的なマルチモーダル事前学習フレームワークを導入する。
論文参考訳（メタデータ） (2025-09-18T15:52:44Z)
Training-Free Multimodal Large Language Model Orchestration [16.211979950149928]
本稿では,対話型マルチモーダルAIシステムを構築するための効果的なアプローチについて報告する。本フレームワークは,(1)ユーザ入力を解析する中央コントローラ,(2)並列テキスト音声アーキテクチャ,(3)クロスモーダルメモリ統合という3つの重要なイノベーションに基づいて構築されている。
論文参考訳（メタデータ） (2025-08-06T16:17:29Z)
Synergy-CLIP: Extending CLIP with Multi-modal Integration for Robust Representation Learning [2.56061946132533]
マルチモーダル表現学習を強化するために,コントラスト言語イメージ事前学習(CLIP)アーキテクチャを拡張するフレームワークであるSynergy-CLIPを提案する。個々のモダリティをバニラCLIPに適応することに集中する既存の方法とは異なり、Synergy-CLIPは3つのモダリティにまたがる潜伏情報を等しく整列してキャプチャする。 VGG-sound+は、視覚、テキスト、音声データの等スケール表現を提供するために設計された3つのモーダルデータセットである。
論文参考訳（メタデータ） (2025-04-30T07:14:58Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
S3: A Simple Strong Sample-effective Multimodal Dialog System [61.31055673156622]
本稿では,多モーダルダイアログタスクであるS3モデルに対して,概念的にシンプルだが強力なベースラインを提案する。このシステムは、訓練済みの大規模言語モデル、画像とオーディオのための訓練済みのモダリティエンコーダ、および訓練可能なモダリティプロジェクタに基づいている。
論文参考訳（メタデータ） (2024-06-26T12:45:43Z)
Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文参考訳（メタデータ） (2024-03-11T15:48:43Z)
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-28T17:57:06Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
i-Code V2: An Autoregressive Generation Framework over Vision, Language, and Speech Data [101.52821120195975]
i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
論文参考訳（メタデータ） (2023-05-21T01:25:44Z)
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction [43.17713130538514]
集中型グラフコントラスト学習戦略を導入し、全てのモダリティに対する自己教師付き事前学習を1つの損失で統一する。 FormNetV2は、よりコンパクトなモデルサイズでFUNSD、CORD、SROIE、Paymentベンチマーク上で、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2023-05-04T05:02:04Z)
Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-11-17T18:59:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。