論文の概要: X-modaler: A Versatile and High-performance Codebase for Cross-modal
Analytics
- arxiv url: http://arxiv.org/abs/2108.08217v1
- Date: Wed, 18 Aug 2021 16:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:55:44.858208
- Title: X-modaler: A Versatile and High-performance Codebase for Cross-modal
Analytics
- Title(参考訳): X-modaler: クロスモーダル分析のための多機能かつ高性能なコードベース
- Authors: Yehao Li and Yingwei Pan and Jingwen Chen and Ting Yao and Tao Mei
- Abstract要約: X-modalerは最先端のクロスモーダル分析をいくつかの汎用ステージにカプセル化する。
X-modalerはApacheライセンスで,ソースコードやサンプルプロジェクト,トレーニング済みのモデルなどがオンラインで公開されている。
- 参考スコア(独自算出の注目度): 99.03895740754402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise and development of deep learning over the past decade, there
has been a steady momentum of innovation and breakthroughs that convincingly
push the state-of-the-art of cross-modal analytics between vision and language
in multimedia field. Nevertheless, there has not been an open-source codebase
in support of training and deploying numerous neural network models for
cross-modal analytics in a unified and modular fashion. In this work, we
propose X-modaler -- a versatile and high-performance codebase that
encapsulates the state-of-the-art cross-modal analytics into several
general-purpose stages (e.g., pre-processing, encoder, cross-modal interaction,
decoder, and decode strategy). Each stage is empowered with the functionality
that covers a series of modules widely adopted in state-of-the-arts and allows
seamless switching in between. This way naturally enables a flexible
implementation of state-of-the-art algorithms for image captioning, video
captioning, and vision-language pre-training, aiming to facilitate the rapid
development of research community. Meanwhile, since the effective modular
designs in several stages (e.g., cross-modal interaction) are shared across
different vision-language tasks, X-modaler can be simply extended to power
startup prototypes for other tasks in cross-modal analytics, including visual
question answering, visual commonsense reasoning, and cross-modal retrieval.
X-modaler is an Apache-licensed codebase, and its source codes, sample projects
and pre-trained models are available on-line:
https://github.com/YehLi/xmodaler.
- Abstract(参考訳): 過去10年にわたるディープラーニングの台頭と発展に伴い、イノベーションとブレークスルーの着実に勢いを増し、マルチメディア分野におけるビジョンと言語間のクロスモーダル分析の最先端を確実に推し進めている。
それでも、複数のニューラルネットワークモデルのトレーニングとデプロイをサポートするオープンソースコードベースは、統一的でモジュール化された方法では存在していない。
本研究では, 最先端のクロスモーダル解析を汎用ステージ(前処理, エンコーダ, クロスモーダルインタラクション, デコーダ, デコード戦略など)にカプセル化する多目的かつ高性能なコードベースであるX-modalerを提案する。
各ステージは、最先端に広く採用されている一連のモジュールをカバーする機能を備えており、シームレスに切り替えることができる。
これにより、画像キャプション、ビデオキャプション、ビジョン言語事前学習のための最先端アルゴリズムの柔軟な実装を自然に実現し、研究コミュニティの急速な発展を促進することができる。
一方、いくつかの段階における効果的なモジュラーデザイン(例えば、クロスモーダルインタラクション)は、異なるビジョン言語タスク間で共有されるため、x-modalerは、視覚的質問応答、ビジュアルコモンセンス推論、クロスモーダル検索など、クロスモーダル分析の他のタスクの起動プロトタイプに単純に拡張することができる。
X-modalerはApacheライセンスのコードベースで,ソースコードやサンプルプロジェクト,事前トレーニング済みモデルなどがオンラインで公開されている。
関連論文リスト
- X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Cross-modal Prototype Driven Network for Radiology Report Generation [30.029659845237077]
放射線学報告生成(RRG)は、人のような言語で自動的に放射線学画像を記述することを目的としており、放射線学者の作業を支援する可能性がある。
従来のアプローチでは、エンコーダ-デコーダアーキテクチャを採用し、単一モードの機能学習に重点を置いていた。
本稿では,クロスモーダルなパターン学習を促進するクロスモーダルなプロトタイプ駆動型ネットワーク (XPRONET) を提案する。
論文 参考訳(メタデータ) (2022-07-11T12:29:33Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。