論文の概要: Fully Automatic Page Turning on Real Scores
- arxiv url: http://arxiv.org/abs/2111.06643v1
- Date: Fri, 12 Nov 2021 10:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 13:47:22.910861
- Title: Fully Automatic Page Turning on Real Scores
- Title(参考訳): リアルスコアで全自動ページ変換
- Authors: Florian Henkel, Stephanie Schwaiger, Gerhard Widmer
- Abstract要約: 本稿では,実際のスコア,すなわちシート画像で直接動作する自動ページ変換システムのプロトタイプを提案する。
本システムは,完全なシート画像ページを入力として観測し,入ってくる演奏を聴き,画像の位置を予測するマルチモーダルニューラルネットワークアーキテクチャに基づいている。
概念実証として、我々のシステムを実際のマシンと組み合わせることで、ページをコマンドで物理的に切り替える。
- 参考スコア(独自算出の注目度): 6.230751621285321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a prototype of an automatic page turning system that works
directly on real scores, i.e., sheet images, without any symbolic
representation. Our system is based on a multi-modal neural network
architecture that observes a complete sheet image page as input, listens to an
incoming musical performance, and predicts the corresponding position in the
image. Using the position estimation of our system, we use a simple heuristic
to trigger a page turning event once a certain location within the sheet image
is reached. As a proof of concept we further combine our system with an actual
machine that will physically turn the page on command.
- Abstract(参考訳): 本稿では,記号表現を使わずに,実際のスコア,すなわちシート画像を直接操作する自動ページ変換システムのプロトタイプを提案する。
本システムは,完全なシート画像ページを入力として観測し,入ってくる演奏を聴き,画像中の対応する位置を予測するマルチモーダルニューラルネットワークアーキテクチャに基づいている。
本システムの位置推定では,シート画像内の特定の位置に到達すると,単純なヒューリスティックを用いてページをめくるイベントをトリガーする。
概念実証として、我々のシステムを実際のマシンと組み合わせることで、ページをコマンドで物理的に切り替える。
関連論文リスト
- PlaceFormer: Transformer-based Visual Place Recognition using
Multi-Scale Patch Selection and Fusion [2.7195102129095003]
PlaceFormerは、視覚的位置認識のためのトランスフォーマーベースのアプローチである。
PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成する。
イメージ内のタスク関連領域に対応するパッチを選択する。
論文 参考訳(メタデータ) (2024-01-23T20:28:06Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Efficient Gesture Recognition for the Assistance of Visually Impaired
People using Multi-Head Neural Networks [5.883916678819684]
本稿では,視覚障害者支援を目的とした手ジェスチャーによって制御されるモバイルデバイスの対話型システムを提案する。
このシステムにより、ユーザーはシンプルな静的、ダイナミックな手の動きをすることでデバイスと対話できる。
各ジェスチャーは、オブジェクト認識、シーン記述、イメージスケーリングなど、システム内の異なるアクションをトリガーする。
論文 参考訳(メタデータ) (2022-05-14T06:01:47Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - SeqNet: Learning Descriptors for Sequence-based Hierarchical Place
Recognition [31.714928102950594]
本稿では,高性能初期一致仮説生成器を生成する新しいハイブリッドシステムを提案する。
シーケンス記述子はseqnetと呼ばれる時間畳み込みネットワークを使って生成される。
次に、ショートリスト付き単一画像学習記述子を用いて選択的な逐次スコアアグリゲーションを行い、全体の位置一致仮説を生成する。
論文 参考訳(メタデータ) (2021-02-23T10:32:10Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z) - Learning to Read and Follow Music in Complete Score Sheet Images [8.680081568962997]
そこで本研究では,全ページの未処理シート画像で直接スコアを追従するシステムを提案する。
受信した音声とスコアの所定の画像に基づいて,本システムは,音声にマッチするページ内の最も可能性の高い位置を直接予測する。
論文 参考訳(メタデータ) (2020-07-21T11:53:22Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z) - Vanishing Point Detection with Direct and Transposed Fast Hough
Transform inside the neural network [0.0]
本稿では,画像中の点検出を解消するニューラルネットワークアーキテクチャを提案する。
鍵となる要素は、標準アクティベーション関数を持つ畳み込み層ブロックによって分離された直接変換されたFast Hough変換を使用することである。
論文 参考訳(メタデータ) (2020-02-04T09:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。