論文の概要: Fully Automatic Page Turning on Real Scores
- arxiv url: http://arxiv.org/abs/2111.06643v1
- Date: Fri, 12 Nov 2021 10:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 13:47:22.910861
- Title: Fully Automatic Page Turning on Real Scores
- Title(参考訳): リアルスコアで全自動ページ変換
- Authors: Florian Henkel, Stephanie Schwaiger, Gerhard Widmer
- Abstract要約: 本稿では,実際のスコア,すなわちシート画像で直接動作する自動ページ変換システムのプロトタイプを提案する。
本システムは,完全なシート画像ページを入力として観測し,入ってくる演奏を聴き,画像の位置を予測するマルチモーダルニューラルネットワークアーキテクチャに基づいている。
概念実証として、我々のシステムを実際のマシンと組み合わせることで、ページをコマンドで物理的に切り替える。
- 参考スコア(独自算出の注目度): 6.230751621285321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a prototype of an automatic page turning system that works
directly on real scores, i.e., sheet images, without any symbolic
representation. Our system is based on a multi-modal neural network
architecture that observes a complete sheet image page as input, listens to an
incoming musical performance, and predicts the corresponding position in the
image. Using the position estimation of our system, we use a simple heuristic
to trigger a page turning event once a certain location within the sheet image
is reached. As a proof of concept we further combine our system with an actual
machine that will physically turn the page on command.
- Abstract(参考訳): 本稿では,記号表現を使わずに,実際のスコア,すなわちシート画像を直接操作する自動ページ変換システムのプロトタイプを提案する。
本システムは,完全なシート画像ページを入力として観測し,入ってくる演奏を聴き,画像中の対応する位置を予測するマルチモーダルニューラルネットワークアーキテクチャに基づいている。
本システムの位置推定では,シート画像内の特定の位置に到達すると,単純なヒューリスティックを用いてページをめくるイベントをトリガーする。
概念実証として、我々のシステムを実際のマシンと組み合わせることで、ページをコマンドで物理的に切り替える。
関連論文リスト
- Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations [8.522160106746478]
様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-21T19:37:17Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion [2.3020018305241337]
PlaceFormerは、視覚的位置認識のためのトランスフォーマーベースのアプローチである。
PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成する。
イメージ内のタスク関連領域に対応するパッチを選択する。
論文 参考訳(メタデータ) (2024-01-23T20:28:06Z) - Efficient Gesture Recognition for the Assistance of Visually Impaired
People using Multi-Head Neural Networks [5.883916678819684]
本稿では,視覚障害者支援を目的とした手ジェスチャーによって制御されるモバイルデバイスの対話型システムを提案する。
このシステムにより、ユーザーはシンプルな静的、ダイナミックな手の動きをすることでデバイスと対話できる。
各ジェスチャーは、オブジェクト認識、シーン記述、イメージスケーリングなど、システム内の異なるアクションをトリガーする。
論文 参考訳(メタデータ) (2022-05-14T06:01:47Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - SeqNet: Learning Descriptors for Sequence-based Hierarchical Place
Recognition [31.714928102950594]
本稿では,高性能初期一致仮説生成器を生成する新しいハイブリッドシステムを提案する。
シーケンス記述子はseqnetと呼ばれる時間畳み込みネットワークを使って生成される。
次に、ショートリスト付き単一画像学習記述子を用いて選択的な逐次スコアアグリゲーションを行い、全体の位置一致仮説を生成する。
論文 参考訳(メタデータ) (2021-02-23T10:32:10Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z) - Learning to Read and Follow Music in Complete Score Sheet Images [8.680081568962997]
そこで本研究では,全ページの未処理シート画像で直接スコアを追従するシステムを提案する。
受信した音声とスコアの所定の画像に基づいて,本システムは,音声にマッチするページ内の最も可能性の高い位置を直接予測する。
論文 参考訳(メタデータ) (2020-07-21T11:53:22Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。