論文の概要: SINGA-Easy: An Easy-to-Use Framework for MultiModal Analysis
- arxiv url: http://arxiv.org/abs/2108.02572v1
- Date: Tue, 3 Aug 2021 08:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:52:59.435814
- Title: SINGA-Easy: An Easy-to-Use Framework for MultiModal Analysis
- Title(参考訳): SINGA-Easy: マルチモーダル分析のための使いやすいフレームワーク
- Authors: Naili Xing, Sai Ho Yeung, Chenghao Cai, Teck Khim Ng, Wei Wang,
Kaiyuan Yang, Nan Yang, Meihui Zhang, Gang Chen, Beng Chin Ooi
- Abstract要約: SINGA-Easyは、トレーニング段階での分散ハイパーパラメータチューニング、推論段階での動的計算コスト制御、モデル説明によるマルチメディアコンテンツとの直感的なユーザインタラクションを提供する新しいディープラーニングフレームワークである。
マルチモーダリティデータ解析アプリケーションのトレーニングと展開に関する実験により,このフレームワークは動的推論負荷に適応可能であることが示された。
- 参考スコア(独自算出の注目度): 18.084628500554462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has achieved great success in a wide spectrum of multimedia
applications such as image classification, natural language processing and
multimodal data analysis. Recent years have seen the development of many deep
learning frameworks that provide a high-level programming interface for users
to design models, conduct training and deploy inference. However, it remains
challenging to build an efficient end-to-end multimedia application with most
existing frameworks. Specifically, in terms of usability, it is demanding for
non-experts to implement deep learning models, obtain the right settings for
the entire machine learning pipeline, manage models and datasets, and exploit
external data sources all together. Further, in terms of adaptability, elastic
computation solutions are much needed as the actual serving workload fluctuates
constantly, and scaling the hardware resources to handle the fluctuating
workload is typically infeasible. To address these challenges, we introduce
SINGA-Easy, a new deep learning framework that provides distributed
hyper-parameter tuning at the training stage, dynamic computational cost
control at the inference stage, and intuitive user interactions with multimedia
contents facilitated by model explanation. Our experiments on the training and
deployment of multi-modality data analysis applications show that the framework
is both usable and adaptable to dynamic inference loads. We implement
SINGA-Easy on top of Apache SINGA and demonstrate our system with the entire
machine learning life cycle.
- Abstract(参考訳): ディープラーニングは、画像分類、自然言語処理、マルチモーダルデータ分析など、幅広いマルチメディアアプリケーションにおいて大きな成功を収めている。
近年,モデルの設計やトレーニング,推論のデプロイを行うための高度なプログラミングインターフェースを提供する,多くのディープラーニングフレームワークが開発されている。
しかし、既存のほとんどのフレームワークで効率的なエンドツーエンドのマルチメディアアプリケーションを構築するのは難しい。
具体的には、ユーザビリティの観点からは、非専門家にはディープラーニングモデルの実装、マシンラーニングパイプライン全体の適切な設定の取得、モデルとデータセットの管理、外部データソースの活用が求められている。
さらに、適応性の観点からは、実際のサービス負荷が常に変動し、変動するワークロードを扱うためにハードウェアリソースをスケールすることが通常不可能であるため、弾性計算ソリューションが必要とされる。
これらの課題に対処するために、トレーニング段階での分散ハイパーパラメータチューニング、推論段階での動的計算コスト制御、モデル説明によるマルチメディアコンテンツとの直感的なユーザインタラクションを提供する新しいディープラーニングフレームワークであるSINGA-Easyを紹介した。
マルチモーダリティデータ解析アプリケーションのトレーニングと展開に関する実験により,このフレームワークは動的推論負荷に適応可能であることが示された。
我々は,Apache SINGA上にSINGA-Easyを実装し,機械学習ライフサイクル全体の実演を行う。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.23266008930045]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。
データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (2021-07-15T17:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。