論文の概要: Pix2Prof: fast extraction of sequential information from galaxy imagery
via a deep natural language 'captioning' model
- arxiv url: http://arxiv.org/abs/2010.00622v2
- Date: Wed, 28 Apr 2021 10:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 09:00:23.434921
- Title: Pix2Prof: fast extraction of sequential information from galaxy imagery
via a deep natural language 'captioning' model
- Title(参考訳): pix2prof:deep natural language 'captioning'モデルによる銀河画像からのシーケンシャル情報の高速抽出
- Authors: Michael J. Smith (Hertfordshire), Nikhil Arora (Queen's), Connor Stone
(Queen's), St\'ephane Courteau (Queen's), James E. Geach (Hertfordshire)
- Abstract要約: 我々は、銀河系プロファイルを抽出する際の手動ステップを排除できる深層学習モデル「Pix2Prof」を提案する。
本手法は、いくつかの手動ステップを含む銀河表面輝度(SB)プロファイルフィッティング法を近似することで実証する。
Pix2ProfはIntel Xeon E5 2650 v3 CPUで毎秒$sim$1の画像を処理し、手動対話方式の速度を2桁以上改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present 'Pix2Prof', a deep learning model that can eliminate any manual
steps taken when extracting galaxy profiles. We argue that a galaxy profile of
any sort is conceptually similar to a natural language image caption. This idea
allows us to leverage image captioning methods from the field of natural
language processing, and so we design Pix2Prof as a float sequence 'captioning'
model suitable for galaxy profile inference. We demonstrate the technique by
approximating a galaxy surface brightness (SB) profile fitting method that
contains several manual steps. Pix2Prof processes $\sim$1 image per second on
an Intel Xeon E5 2650 v3 CPU, improving on the speed of the manual interactive
method by more than two orders of magnitude. Crucially, Pix2Prof requires no
manual interaction, and since galaxy profile estimation is an embarrassingly
parallel problem, we can further increase the throughput by running many
Pix2Prof instances simultaneously. In perspective, Pix2Prof would take under an
hour to infer profiles for $10^5$ galaxies on a single NVIDIA DGX-2 system. A
single human expert would take approximately two years to complete the same
task. Automated methodology such as this will accelerate the analysis of the
next generation of large area sky surveys expected to yield hundreds of
millions of targets. In such instances, all manual approaches -- even those
involving a large number of experts -- will be impractical.
- Abstract(参考訳): 我々は、銀河プロファイルを抽出する際の手動ステップを排除できる深層学習モデル「Pix2Prof」を提案する。
我々は、どんな種類の銀河でも、概念的には自然言語のイメージキャプションと似ていると論じる。
このアイデアにより、自然言語処理の分野から画像キャプション手法を活用することができ、銀河プロファイル推論に適したフロートシーケンス「キャプション」モデルとしてPix2Profを設計する。
本手法は、いくつかの手動ステップを含む銀河表面輝度(SB)プロファイルフィッティング法を近似することで実証する。
Pix2ProfはIntel Xeon E5 2650 v3 CPU上で毎秒$\sim$1イメージを処理し、手動対話方式の速度を2桁以上改善した。
重要なことに、Pix2Profは手動操作を必要としないため、銀河プロファイル推定は恥ずかしく並列な問題であるため、多くのPix2Profインスタンスを同時に実行することでスループットをさらに向上させることができる。
Pix2Profは1つのNVIDIA DGX-2システムで10^5$の銀河を推定するのに1時間以下かかる。
一人の人間専門家が同じ仕事を完了するのに約2年を要した。
このような自動化手法は、数十億のターゲットを生み出すと予想される次世代の大規模スカイサーベイの分析を加速する。
そのような場合、多くの専門家を含むすべての手動アプローチは非現実的になるでしょう。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Pixtral 12B [61.12291038082914]
12ビリオンパラメータのマルチモーダル言語モデルであるPixtral-12Bを導入する。
Pixtral-12Bは、自然画像と文書の両方を理解するために訓練されている。
多くのオープンソースモデルとは異なり、Pixtralはそのサイズに対する最先端のテキストモデルでもある。
論文 参考訳(メタデータ) (2024-10-09T17:16:22Z) - Deep Spherical Superpixels [1.104960878651584]
DSS(Deep Spherical Superpixels)と呼ばれる全方位画像に適した,ディープラーニングに基づく最初のスーパーピクセルセグメンテーション手法を提案する。
提案手法は球面CNNアーキテクチャとスーパーピクセルのK平均クラスタリングパラダイムを利用して,球面形状に従うスーパーピクセルを生成する。
論文 参考訳(メタデータ) (2024-07-24T15:27:21Z) - SceneX:Procedural Controllable Large-scale Scene Generation via Large-language Models [53.961002112433576]
本稿では,デザイナーのテキスト記述に従って高品質なプロシージャモデルを自動生成する大規模シーン生成フレームワークであるSceneXを紹介する。
私たちのSceneXは、微妙な幾何学的レイアウトと構造を持つ2.5km×2.5kmの都市を生成でき、プロのPCGエンジニアの数週間の時間を大幅に短縮して、普通のユーザにとっては数時間に過ぎません。
論文 参考訳(メタデータ) (2024-03-23T03:23:29Z) - Continuous-Multiple Image Outpainting in One-Step via Positional Query
and A Diffusion-based Approach [104.2588068730834]
本稿では, 文献で未解決の2つの方向において, 画像出力の技術的フロンティアを推し進める。
トレーニング済みのバックボーンネットワークに依存しない手法を開発した。
提案手法(PQDiff)を公開ベンチマークで評価し,最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-28T13:00:38Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - Improving Pixel-Level Contrastive Learning by Leveraging Exogenous Depth
Information [7.561849435043042]
近年,コントラスト学習(CL)に基づく自己指導型表現学習が注目されている。
本稿では,深度ネットワークを用いたり,利用可能なデータから測定したりすることで得られる深度情報に焦点を当てる。
比較損失におけるこの推定情報を用いることで、結果が改善され、学習された表現がオブジェクトの形状に従うのがよいことを示す。
論文 参考訳(メタデータ) (2022-11-18T11:45:39Z) - Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation [0.0]
多くのアプリケーションは、安価なハードウェアや組み込みハードウェアの大規模な入力解像度よりも高速な推論を必要とする。
マルチスケール特徴抽出のためのバックボーン容量をトレードオフすることで,この目標を達成することを提案する。
本稿では,Cityscapes,Vistas,COCO,BSB-Aerialデータセットについてパノラマ実験を行った。
論文 参考訳(メタデータ) (2022-03-15T13:47:40Z) - Optimizing Streaming Parallelism on Heterogeneous Many-Core
Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。
提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。
シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2020-03-05T21:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。