論文の概要: HaSPeR: An Image Repository for Hand Shadow Puppet Recognition
- arxiv url: http://arxiv.org/abs/2408.10360v1
- Date: Mon, 19 Aug 2024 18:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 17:53:16.054640
- Title: HaSPeR: An Image Repository for Hand Shadow Puppet Recognition
- Title(参考訳): HaSPeR: ハンドシャドウPuppet認識のためのイメージリポジトリ
- Authors: Syed Rifat Raiyan, Zibran Zarif Amio, Sabbir Ahmed,
- Abstract要約: シャドウグラフィー(Shadowgraphy)またはボンボマニー(ombromanie)は、演劇芸術とストーリーテリングの一形態である。
プロとアマチュアの両方の手影人形クリップから抽出した11種類の手影人形の8,340枚の画像からなる新しいデータセットを提案する。
本研究の結果は,従来のコンボリューションモデルよりも,注目に基づくトランスフォーマーアーキテクチャよりもかなり優れた性能を示した。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hand shadow puppetry, also known as shadowgraphy or ombromanie, is a form of theatrical art and storytelling where hand shadows are projected onto flat surfaces to create illusions of living creatures. The skilled performers create these silhouettes by hand positioning, finger movements, and dexterous gestures to resemble shadows of animals and objects. Due to the lack of practitioners and a seismic shift in people's entertainment standards, this art form is on the verge of extinction. To facilitate its preservation and proliferate it to a wider audience, we introduce ${\rm H{\small A}SP{\small E}R}$, a novel dataset consisting of 8,340 images of hand shadow puppets across 11 classes extracted from both professional and amateur hand shadow puppeteer clips. We provide a detailed statistical analysis of the dataset and employ a range of pretrained image classification models to establish baselines. Our findings show a substantial performance superiority of traditional convolutional models over attention-based transformer architectures. We also find that lightweight models, such as MobileNetV2, suited for mobile applications and embedded devices, perform comparatively well. We surmise that such low-latency architectures can be useful in developing ombromanie teaching tools, and we create a prototype application to explore this surmission. Keeping the best-performing model InceptionV3 under the limelight, we conduct comprehensive feature-spatial, explainability, and error analyses to gain insights into its decision-making process. To the best of our knowledge, this is the first documented dataset and research endeavor to preserve this dying art for future generations, with computer vision approaches. Our code and data are publicly available.
- Abstract(参考訳): シャドウグラフィー(Shadowgraphy)またはボンボマニー(ombromanie)とも呼ばれる手影人形は、手影を平らな表面に投影し、生物の錯覚を生み出す演劇や物語の形式である。
熟練したパフォーマーは、動物や物体の影に似た手の位置、指の動き、巧妙なジェスチャーによってこれらのシルエットを作る。
開業医の不足と人々の娯楽水準の変動により、この芸術形式は絶滅寸前にある。
プロとアマチュアの両方の手影人形クリップから抽出した11クラスの手影人形の8,340枚の画像からなる新しいデータセットである${\rm H{\small A}SP{\small E}R}を紹介。
データセットの詳細な統計解析を行い、ベースラインを確立するために、事前訓練された画像分類モデルを用いている。
本研究の結果は,従来のコンボリューションモデルよりも,注目に基づくトランスフォーマーアーキテクチャよりもかなり優れた性能を示した。
また、モバイルアプリケーションや組み込みデバイスに適したMobileNetV2のような軽量モデルは、比較的よく機能します。
このような低レイテンシアーキテクチャがボンボマニー教育ツールの開発に有用であると推測し、このサミッションを探索するためのプロトタイプアプリケーションを作成します。
最高のパフォーマンスモデルであるInceptionV3をライムライトの下で維持し、包括的特徴空間、説明可能性、エラー分析を行い、意思決定プロセスに関する洞察を得る。
私たちの知る限りでは、これはコンピュータビジョンのアプローチによって、この死にゆく芸術を将来の世代に保存する最初の文書化されたデータセットと研究の取り組みである。
私たちのコードとデータは公開されています。
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - Learning Physical-Spatio-Temporal Features for Video Shadow Removal [42.95422940263425]
データ駆動型ビデオシャドウ除去モデルであるedNetを提案する。
具体的には、複雑な照明テクスチャを持つシーンに適用可能な局所照明推定を行うために、専用の物理的ブランチが設けられた。
シャドウビデオと組み合わせたデータセットの欠如に対処するため、シャドウのスイッチを制御することで、人気のあるゲームGTAVの助けを借りてデータセットを合成する。
論文 参考訳(メタデータ) (2023-03-16T14:55:31Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - MagicPony: Learning Articulated 3D Animals in the Wild [81.63322697335228]
そこで本研究では,オブジェクトカテゴリのワンビュー画像から,この予測器を純粋に学習するMagicPonyを提案する。
その中核は、明瞭な形状と外観を暗黙的に表現し、神経磁場とメッシュの強さを組み合わせたものである。
論文 参考訳(メタデータ) (2022-11-22T18:59:31Z) - ArcAid: Analysis of Archaeological Artifacts using Drawings [23.906975910478142]
考古学はコンピュータビジョンの興味深い分野である。
ラベル付きデータに不足するだけでなく、高度に混ざったデータに悩まされる。
本稿では,考古学的遺物の画像の分類と検索のための,新しい半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T11:57:01Z) - TAVA: Template-free Animatable Volumetric Actors [29.93065805208324]
ニューラル表現をベースとした,Tエンプレートフリーのアニマタブルボリュームアクタ作成手法であるTAVAを提案する。
TAVAは体テンプレートを必要としないため、ヒトや動物などの他の生物にも適用可能である。
論文 参考訳(メタデータ) (2022-06-17T17:59:59Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - Pose-Guided High-Resolution Appearance Transfer via Progressive Training [65.92031716146865]
前例のない画像解像度で、所定の参照外観をターゲットポーズに転送するためのポーズ誘導型外観伝達ネットワークを提案する。
我々のネットワークは、局所的な知覚喪失や局所的な識別など、密集した局所記述子を用いて詳細を精査する。
我々のモデルは高品質な画像を生成し、人間の衣服の移動などの有用な応用にさらに活用することができる。
論文 参考訳(メタデータ) (2020-08-27T03:18:44Z) - Deformation-aware Unpaired Image Translation for Pose Estimation on
Laboratory Animals [56.65062746564091]
我々は,神経回路が行動をどのようにオーケストレーションするかを研究するために,手動による監督を使わずに,神経科学モデル生物のポーズを捉えることを目的としている。
我々の重要な貢献は、未完成の画像翻訳フレームワークにおける外観、形状、ポーズの明示的で独立したモデリングである。
ショウジョウバエ(ハエ)、線虫(線虫)、ダニオ・レリオ(ゼブラフィッシュ)のポーズ推定精度の向上を実証した。
論文 参考訳(メタデータ) (2020-01-23T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。