論文の概要: SCENIC: A JAX Library for Computer Vision Research and Beyond
- arxiv url: http://arxiv.org/abs/2110.11403v1
- Date: Mon, 18 Oct 2021 08:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 08:52:19.618467
- Title: SCENIC: A JAX Library for Computer Vision Research and Beyond
- Title(参考訳): SCENIC:コンピュータビジョン研究などのためのJAXライブラリ
- Authors: Mostafa Dehghani and Alexey Gritsenko and Anurag Arnab and Matthias
Minderer and Yi Tay
- Abstract要約: ScenicはオープンソースのJAXライブラリで、コンピュータビジョン研究などのためのTransformerベースのモデルにフォーカスしている。
このツールキットの目的は、新しい視覚アーキテクチャとモデルの迅速な実験、プロトタイピング、研究を促進することである。
- 参考スコア(独自算出の注目度): 44.21002948898551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scenic is an open-source JAX library with a focus on Transformer-based models
for computer vision research and beyond. The goal of this toolkit is to
facilitate rapid experimentation, prototyping, and research of new vision
architectures and models. Scenic supports a diverse range of vision tasks
(e.g., classification, segmentation, detection)and facilitates working on
multi-modal problems, along with GPU/TPU support for multi-host, multi-device
large-scale training. Scenic also offers optimized implementations of
state-of-the-art research models spanning a wide range of modalities. Scenic
has been successfully used for numerous projects and published papers and
continues serving as the library of choice for quick prototyping and
publication of new research ideas.
- Abstract(参考訳): ScenicはオープンソースのJAXライブラリで、コンピュータビジョン研究などのためのTransformerベースのモデルにフォーカスしている。
このツールキットの目的は、新しいビジョンアーキテクチャとモデルの迅速な実験、プロトタイピング、研究を促進することである。
さまざまなビジョンタスク(分類、セグメンテーション、検出など)をサポートし、gpu/tpuによるマルチホスト、マルチデバイス大規模トレーニングのサポートとともに、マルチモーダル問題への取り組みを容易にする。
Scenicはまた、幅広いモダリティにまたがる最先端の研究モデルの最適化実装も提供している。
ランドスケープは多くのプロジェクトや論文の出版に成功し、新しい研究アイデアの迅速なプロトタイピングと出版に最適な図書館として機能し続けている。
関連論文リスト
- Collage: Decomposable Rapid Prototyping for Information Extraction on Scientific PDFs [15.610004991273005]
コラージュ(Colllage)は, 科学的PDF上での様々な情報抽出モデルの高速なプロトタイピング, 可視化, 評価を目的としたツールである。
NLPベースのツールの開発者とユーザの両方が、中間状態の詳細なビューを提供することで、パイプラインの検査、デバッグ、理解を深めることができます。
論文 参考訳(メタデータ) (2024-10-30T22:00:34Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Enhancing Text Corpus Exploration with Post Hoc Explanations and Comparative Design [6.8863648800930655]
テキストコーパス探索(TCE)は探索探索タスクの範囲にまたがる。
現在のシステムは、実際に遭遇するタスクの範囲をサポートする柔軟性に欠けています。
ポストホックな説明やマルチスケールな比較設計によるTCEツールの強化手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T03:13:58Z) - ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - torchdistill Meets Hugging Face Libraries for Reproducible, Coding-Free
Deep Learning Studies: A Case Study on NLP [3.0875505950565856]
モジュール駆動のコーディング不要なディープラーニングフレームワークである torchdistill を,大幅に改良したバージョンとして紹介する。
アップグレードされた torchdistill に基づくスクリプトを用いて,BERT モデルの GLUE ベンチマーク結果を再現する。
27の細調整されたBERTモデルと結果を再現する構成はすべて、Hugging Faceで公開されている。
論文 参考訳(メタデータ) (2023-10-26T17:57:15Z) - Automatic Image Content Extraction: Operationalizing Machine Learning in
Humanistic Photographic Studies of Large Visual Archives [81.88384269259706]
本稿では,機械学習による大規模画像アーカイブの検索と解析のための自動画像コンテンツ抽出フレームワークを提案する。
提案する枠組みは、人文科学と社会科学のいくつかの分野に適用できる。
論文 参考訳(メタデータ) (2022-04-05T12:19:24Z) - X-modaler: A Versatile and High-performance Codebase for Cross-modal
Analytics [99.03895740754402]
X-modalerは最先端のクロスモーダル分析をいくつかの汎用ステージにカプセル化する。
X-modalerはApacheライセンスで,ソースコードやサンプルプロジェクト,トレーニング済みのモデルなどがオンラインで公開されている。
論文 参考訳(メタデータ) (2021-08-18T16:05:30Z) - LayoutParser: A Unified Toolkit for Deep Learning Based Document Image
Analysis [3.4253416336476246]
本稿では,文書画像解析(DIA)研究における深層学習(DL)モデルの利用を合理化するためのオープンソースのライブラリであるレイアウトパーサを紹介する。
layoutparserには、レイアウト検出、文字認識、および他の多くのドキュメント処理タスクのためのDLモデルを適用およびカスタマイズするためのシンプルで直感的なインターフェースのセットが付属しています。
layoutparserは、リアルタイムのユースケースにおける軽量パイプラインと大規模パイプラインの両方に有用であることを示す。
論文 参考訳(メタデータ) (2021-03-29T05:55:08Z) - SciWING -- A Software Toolkit for Scientific Document Processing [21.394568145639894]
SciWINGは、科学文書処理タスクのための事前訓練されたモデルへのアクセスを提供する。
使えるWebアプリケーションや端末ベースのアプリケーション、デモも用意されている。
論文 参考訳(メタデータ) (2020-04-08T04:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。