論文の概要: PiggyBack: Pretrained Visual Question Answering Environment for Backing
up Non-deep Learning Professionals
- arxiv url: http://arxiv.org/abs/2211.15940v3
- Date: Thu, 1 Dec 2022 02:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:07:56.382468
- Title: PiggyBack: Pretrained Visual Question Answering Environment for Backing
up Non-deep Learning Professionals
- Title(参考訳): PiggyBack: 深層学習専門職を支援するための事前学習型視覚質問応答環境
- Authors: Zhihao Zhang, Siwen Luo, Junyi Chen, Sijia Lai, Siqu Long, Hyunsuk
Chung, Soyeon Caren Han
- Abstract要約: 我々は,最先端の視覚言語事前学習モデルを容易に適用できる視覚質問応答プラットフォームを提案する。
PiggyBackは、視覚的な質問応答タスクのフルスタック、特にデータ処理、モデル微調整、結果の可視化をサポートする。
- 参考スコア(独自算出の注目度): 2.781084573942871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a PiggyBack, a Visual Question Answering platform that allows
users to apply the state-of-the-art visual-language pretrained models easily.
The PiggyBack supports the full stack of visual question answering tasks,
specifically data processing, model fine-tuning, and result visualisation. We
integrate visual-language models, pretrained by HuggingFace, an open-source API
platform of deep learning technologies; however, it cannot be runnable without
programming skills or deep learning understanding. Hence, our PiggyBack
supports an easy-to-use browser-based user interface with several deep learning
visual language pretrained models for general users and domain experts. The
PiggyBack includes the following benefits: Free availability under the MIT
License, Portability due to web-based and thus runs on almost any platform, A
comprehensive data creation and processing technique, and ease of use on deep
learning-based visual language pretrained models. The demo video is available
on YouTube and can be found at https://youtu.be/iz44RZ1lF4s.
- Abstract(参考訳): 我々は,最先端のビジュアル言語事前学習モデルを容易に適用できるビジュアル質問応答プラットフォーム piggyback を提案する。
PiggyBackは、視覚的な質問応答タスクのフルスタック、特にデータ処理、モデル微調整、結果の可視化をサポートする。
ディープラーニング技術のオープンソースAPIプラットフォームであるHuggingFaceによって事前訓練された視覚言語モデルを統合していますが、プログラミングスキルやディープラーニングの理解なしには実行できません。
したがって、私たちのpiggybackは、一般ユーザやドメインの専門家のために、いくつかのディープラーニングビジュアル言語を事前学習したモデルを備えた、使いやすいブラウザベースのユーザインターフェースをサポートします。
このPiggyBackには,次のようなメリットがある。MITライセンス下での無償提供,Webベースによる移植性,ほぼすべてのプラットフォームで動作すること,包括的なデータ生成と処理技術,ディープラーニングベースのビジュアル言語事前トレーニングモデルでの使いやすさ。
デモビデオはYouTubeで公開されており、https://youtu.be/iz44RZ1lF4sで見ることができる。
関連論文リスト
- Turn-by-Turn Indoor Navigation for the Visually Impaired [0.0]
室内環境のナビゲーションは視覚障害者にとって重要な課題である。
本稿では,カメラを搭載したスマートフォンのみを用いた建物内部のターンバイターンナビゲーションシステムを提案する。
複雑な屋内空間を利用者に正確に案内するシステムの有効性について予備評価を行った。
論文 参考訳(メタデータ) (2024-10-25T20:16:38Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Robustar: Interactive Toolbox Supporting Precise Data Annotation for
Robust Vision Learning [53.900911121695536]
ソフトウェアRobustarの初期リリースを紹介します。
それは、データ駆動の観点から視覚分類機械学習モデルの堅牢性を改善することを目的としている。
論文 参考訳(メタデータ) (2022-07-18T21:12:28Z) - PyTorchVideo: A Deep Learning Library for Video Understanding [71.89124881732015]
PyTorchVideoは、ビデオ理解タスクのためのオープンソースのディープラーニングライブラリである。
マルチモーダルデータローディング、変換、モデルを含む、ビデオ理解ツールのフルスタックをカバーする。
ライブラリはPyTorchをベースにしており、任意のトレーニングフレームワークで使用することができる。
論文 参考訳(メタデータ) (2021-11-18T18:59:58Z) - AdapterHub Playground: Simple and Flexible Few-Shot Learning with
Adapters [34.86139827292556]
事前訓練された言語モデルのオープンアクセスの普及は、最先端自然言語処理(NLP)研究の民主化につながった。
これにより、NLP以外の人たちでも、そのようなモデルを使用して、特定のユースケースに適応することが可能になります。
本研究では,一行のコードを書かずに事前学習したモデルを活用できるツールを提供することで,このギャップを克服することを目指している。
論文 参考訳(メタデータ) (2021-08-18T11:56:01Z) - Federated Learning Meets Natural Language Processing: A Survey [12.224792145700562]
Federated Learningは、複数の分散エッジデバイス(モバイルなど)やサーバから、ローカルデータのプライバシを犠牲にすることなく、マシンラーニングモデルを学習することを目的としている。
最近の自然言語処理技術は、ディープラーニングと大規模な事前学習言語モデルに依存している。
論文 参考訳(メタデータ) (2021-07-27T05:07:48Z) - Py-Feat: Python Facial Expression Analysis Toolbox [0.0]
Py-FeatはオープンソースのPythonツールボックスで、顔の表情データの検出、前処理、分析、視覚化をサポートする。
このプラットフォームが、人間の行動研究における表情データの利用を増やすことを願っている。
論文 参考訳(メタデータ) (2021-04-08T04:52:21Z) - Towards Backward-Compatible Representation Learning [86.39292571306395]
異なる次元であっても,従来の計算機能と互換性のある視覚的特徴を学習する方法を提案する。
これにより、埋め込みモデルを更新する際に、以前見たすべての画像の新機能の計算を回避できる。
本稿では、後方互換表現学習の第一歩として、後方互換学習(BCT)と呼ばれる埋め込みモデルを訓練するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-26T14:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。