Fugu-MT 論文翻訳(概要): SINGA-Easy: An Easy-to-Use Framework for MultiModal Analysis

論文の概要: SINGA-Easy: An Easy-to-Use Framework for MultiModal Analysis

arxiv url: http://arxiv.org/abs/2108.02572v1
Date: Tue, 3 Aug 2021 08:39:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-06 14:52:59.435814
Title: SINGA-Easy: An Easy-to-Use Framework for MultiModal Analysis
Title（参考訳）: SINGA-Easy: マルチモーダル分析のための使いやすいフレームワーク
Authors: Naili Xing, Sai Ho Yeung, Chenghao Cai, Teck Khim Ng, Wei Wang, Kaiyuan Yang, Nan Yang, Meihui Zhang, Gang Chen, Beng Chin Ooi
Abstract要約: SINGA-Easyは、トレーニング段階での分散ハイパーパラメータチューニング、推論段階での動的計算コスト制御、モデル説明によるマルチメディアコンテンツとの直感的なユーザインタラクションを提供する新しいディープラーニングフレームワークである。マルチモーダリティデータ解析アプリケーションのトレーニングと展開に関する実験により,このフレームワークは動的推論負荷に適応可能であることが示された。
参考スコア（独自算出の注目度）: 18.084628500554462
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning has achieved great success in a wide spectrum of multimedia applications such as image classification, natural language processing and multimodal data analysis. Recent years have seen the development of many deep learning frameworks that provide a high-level programming interface for users to design models, conduct training and deploy inference. However, it remains challenging to build an efficient end-to-end multimedia application with most existing frameworks. Specifically, in terms of usability, it is demanding for non-experts to implement deep learning models, obtain the right settings for the entire machine learning pipeline, manage models and datasets, and exploit external data sources all together. Further, in terms of adaptability, elastic computation solutions are much needed as the actual serving workload fluctuates constantly, and scaling the hardware resources to handle the fluctuating workload is typically infeasible. To address these challenges, we introduce SINGA-Easy, a new deep learning framework that provides distributed hyper-parameter tuning at the training stage, dynamic computational cost control at the inference stage, and intuitive user interactions with multimedia contents facilitated by model explanation. Our experiments on the training and deployment of multi-modality data analysis applications show that the framework is both usable and adaptable to dynamic inference loads. We implement SINGA-Easy on top of Apache SINGA and demonstrate our system with the entire machine learning life cycle.
Abstract（参考訳）: ディープラーニングは、画像分類、自然言語処理、マルチモーダルデータ分析など、幅広いマルチメディアアプリケーションにおいて大きな成功を収めている。近年,モデルの設計やトレーニング,推論のデプロイを行うための高度なプログラミングインターフェースを提供する,多くのディープラーニングフレームワークが開発されている。しかし、既存のほとんどのフレームワークで効率的なエンドツーエンドのマルチメディアアプリケーションを構築するのは難しい。具体的には、ユーザビリティの観点からは、非専門家にはディープラーニングモデルの実装、マシンラーニングパイプライン全体の適切な設定の取得、モデルとデータセットの管理、外部データソースの活用が求められている。さらに、適応性の観点からは、実際のサービス負荷が常に変動し、変動するワークロードを扱うためにハードウェアリソースをスケールすることが通常不可能であるため、弾性計算ソリューションが必要とされる。これらの課題に対処するために、トレーニング段階での分散ハイパーパラメータチューニング、推論段階での動的計算コスト制御、モデル説明によるマルチメディアコンテンツとの直感的なユーザインタラクションを提供する新しいディープラーニングフレームワークであるSINGA-Easyを紹介した。マルチモーダリティデータ解析アプリケーションのトレーニングと展開に関する実験により,このフレームワークは動的推論負荷に適応可能であることが示された。我々は,Apache SINGA上にSINGA-Easyを実装し,機械学習ライフサイクル全体の実演を行う。

関連論文リスト

GridMind: A Multi-Agent NLP Framework for Unified, Cross-Modal NFL Data Insights [0.0]
本稿では,Retrieval-Augmented Generation (RAG) と大規模言語モデル (LLM) を通じて構造化,半構造化,非構造化データを統一するフレームワークであるGridMindを紹介する。このアプローチはマルチモーダル表現学習の進化する分野と一致する。
論文参考訳（メタデータ） (2025-03-24T18:33:36Z)
Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy [2.294223504228228]
人工知能の急速に発展する分野であるマルチモーダル学習は、より汎用的で堅牢なシステムの構築を目指している。多くの感覚を通じて情報を同化する人間の能力に触発され、テキストからビデオへの変換、視覚的質問応答、画像キャプションなどの応用が可能となる。マルチモーダル言語モデル(MLLM)をサポートするデータセットの最近の発展について概説する。
論文参考訳（メタデータ） (2024-12-23T18:15:19Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文参考訳（メタデータ） (2024-08-26T17:59:01Z)
AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。最先端の刈り取り法に比べて優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T17:19:15Z)
An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文参考訳（メタデータ） (2024-02-08T18:58:02Z)
Dynamic Transformer Architecture for Continual Learning of Multimodal Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-27T03:03:30Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。 MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文参考訳（メタデータ） (2023-04-08T07:34:26Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.23266008930045]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文参考訳（メタデータ） (2021-07-15T17:54:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。