論文の概要: VisionScores -- A system-segmented image score dataset for deep learning tasks
- arxiv url: http://arxiv.org/abs/2506.23030v1
- Date: Sat, 28 Jun 2025 22:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.676051
- Title: VisionScores -- A system-segmented image score dataset for deep learning tasks
- Title(参考訳): VisionScores -- ディープラーニングタスクのためのシステム別画像スコアデータセット
- Authors: Alejandro Romero Amezcua, Mariano José Juan Rivera Meraz,
- Abstract要約: VisionScoresは、最初のシステム別画像スコアデータセットである。
機械学習とディープラーニングのタスクのために、構造に富んだ高情報密度の画像を提供することを目指している。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VisionScores presents a novel proposal being the first system-segmented image score dataset, aiming to offer structure-rich, high information-density images for machine and deep learning tasks. Delimited to two-handed piano pieces, it was built to consider not only certain graphic similarity but also composition patterns, as this creative process is highly instrument-dependent. It provides two scenarios in relation to composer and composition type. The first, formed by 14k samples, considers works from different authors but the same composition type, specifically, Sonatinas. The latter, consisting of 10.8K samples, presents the opposite case, various composition types from the same author, being the one selected Franz Liszt. All of the 24.8k samples are formatted as grayscale jpg images of $128 \times 512$ pixels. VisionScores supplies the users not only the formatted samples but the systems' order and pieces' metadata. Moreover, unsegmented full-page scores and the pre-formatted images are included for further analysis.
- Abstract(参考訳): VisionScoresは、構造に富んだ高情報密度のイメージを機械学習タスクやディープラーニングタスクに提供することを目的とした、最初のシステム分割イメージスコアデータセットである、新しい提案を提示している。
片手ピアノに限らず、特定の図形的類似性だけでなく、作曲パターンも考慮し、この創造的過程は楽器に依存している。
作曲と作曲に関して2つのシナリオを提供する。
14kのサンプルによって形成された最初のものは、異なる著者による作品であるが、同じ作曲タイプ、特にソナティナスについて考察している。
後者は10.8Kのサンプルで構成されており、同じ著者から様々な構成タイプが選択されたフランツ・リスト(Franz Liszt)である。
24.8kのサンプルはすべて、グレースケールのjpgイメージとしてフォーマットされ、128 時間 512 ピクセルである。
VisionScoresはユーザに対して、フォーマットされたサンプルだけでなく、システムの順序や部品のメタデータも提供する。
さらに、さらに分析するために、未分割全ページスコアと事前フォーマットされた画像を含める。
関連論文リスト
- PBSCR: The Piano Bootleg Score Composer Recognition Dataset [5.314803183185992]
PBSCR(PBSCR)は、クラシックピアノ音楽の作曲家認識を研究するためのデータセットである。
9クラス認証タスクには4万の62x64ブートレグスコアイメージ、100クラス認証タスクには10万の62x64ブートレグスコアイメージ、事前トレーニングには未ラベルの可変長ブートレグスコアイメージ29,310が含まれる。
論文 参考訳(メタデータ) (2024-01-30T07:50:32Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Deep Learning Based Automated COVID-19 Classification from Computed
Tomography Images [0.0]
本稿では,画像分類のための畳み込みニューラルネットワーク(CNN)モデルを提案する。
本研究では,2次元CNNモデルを用いて2次元CTスキャン画像のスライスを簡易に分類する手法を提案する。
アーキテクチャの単純さにもかかわらず、提案モデルでは、同じ画像のデータセット上で、最先端技術を上回る定量的結果が得られた。
論文 参考訳(メタデータ) (2021-11-22T13:35:10Z) - Composer Style Classification of Piano Sheet Music Images Using Language
Model Pretraining [16.23438816698455]
我々は,その問題を象徴的な音楽形式ではなく,生の楽譜に基づいて再放送する。
提案手法はまず,ブートレッグの特徴表現に基づいて,楽譜を一連の「単語」に変換する。
IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
論文 参考訳(メタデータ) (2020-07-29T04:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。