論文の概要: pose-format: Library for Viewing, Augmenting, and Handling .pose Files
- arxiv url: http://arxiv.org/abs/2310.09066v1
- Date: Fri, 13 Oct 2023 12:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 13:10:46.562915
- Title: pose-format: Library for Viewing, Augmenting, and Handling .pose Files
- Title(参考訳): pose-format: 閲覧、拡張、処理のためのライブラリ。
ファイルのポーズ
- Authors: Amit Moryossef, Mathias M\"uller, Rebecka Fahrni
- Abstract要約: 本稿では、ポーズデータ問題に対処する包括的なツールキットである textttpose-format を提案する。
このライブラリは、さまざまな種類のポーズデータをカプセル化し、複数の個人を収容し、無期限の時間フレームを収容する、特殊なファイルフォーマットを含む。
textttpose-formatはワンストップソリューションとして登場し、ポーズデータ管理と分析の複雑さを合理化する。
- 参考スコア(独自算出の注目度): 4.606561440859961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing and analyzing pose data is a complex task, with challenges ranging
from handling diverse file structures and data types to facilitating effective
data manipulations such as normalization and augmentation. This paper presents
\texttt{pose-format}, a comprehensive toolkit designed to address these
challenges by providing a unified, flexible, and easy-to-use interface. The
library includes a specialized file format that encapsulates various types of
pose data, accommodating multiple individuals and an indefinite number of time
frames, thus proving its utility for both image and video data. Furthermore, it
offers seamless integration with popular numerical libraries such as NumPy,
PyTorch, and TensorFlow, thereby enabling robust machine-learning applications.
Through benchmarking, we demonstrate that our \texttt{.pose} file format offers
vastly superior performance against prevalent formats like OpenPose, with added
advantages like self-contained pose specification. Additionally, the library
includes features for data normalization, augmentation, and easy-to-use
visualization capabilities, both in Python and Browser environments.
\texttt{pose-format} emerges as a one-stop solution, streamlining the
complexities of pose data management and analysis.
- Abstract(参考訳): ポーズデータの管理と分析は複雑なタスクであり、多様なファイル構造やデータ型を扱うことから、正規化や拡張のような効果的なデータ操作を容易にすることまで課題がある。
本稿では,これらの課題に対処するための包括的なツールキットである \texttt{pose-format} を提案する。
ライブラリには、さまざまな種類のポーズデータをカプセル化し、複数の個人と無期限の時間枠を収容する特殊なファイルフォーマットが含まれており、画像データとビデオデータの両方に有用である。
さらに、NumPy、PyTorch、TensorFlowといった一般的な数値ライブラリとシームレスに統合することで、堅牢な機械学習アプリケーションを可能にする。
ベンチマークを通じて、我々の \texttt{。
pose} ファイルフォーマットはopenposeのような一般的なフォーマットに対して非常に優れたパフォーマンスを提供します。
さらに、このライブラリには、PythonとBrowser環境の両方でデータ正規化、拡張、使いやすく視覚化する機能が含まれている。
texttt{pose-format}はワンストップソリューションとして登場し、ポーズデータ管理と分析の複雑さを合理化する。
関連論文リスト
- Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。
文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。
本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - PyTorch-IE: Fast and Reproducible Prototyping for Information Extraction [6.308539010172309]
PyTorch-IEは、情報抽出モデルの迅速かつ再現可能で再利用可能な実装を可能にするために設計されたフレームワークである。
データ表現とモデル固有表現の関心事を分離するタスクモジュールを提案する。
PyTorch-IEは、トレーニングにPyTorch-Lightning、データセット読み込みにHuggingFaceデータセット、実験設定にHydraなど、広く使用されているライブラリのサポートも拡張している。
論文 参考訳(メタデータ) (2024-05-16T12:23:37Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - pyvene: A Library for Understanding and Improving PyTorch Models via
Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。
私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文 参考訳(メタデータ) (2024-03-12T16:46:54Z) - UniSparse: An Intermediate Language for General Sparse Format
Customization [13.132033187592349]
スパースフォーマットの表現とカスタマイズを統一した抽象化を提供する中間言語であるUniSparseを提案する。
既存の属性ベースのフレームワークとは異なり、UniSparseはスパーステンソルの論理的表現を低レベルメモリレイアウトから切り離す。
結果として、リッチなフォーマットのカスタマイズは、明確に定義されたクエリ、突然変異、レイアウトプリミティブの小さなセットで簡潔に表現できる。
論文 参考訳(メタデータ) (2024-03-09T05:38:45Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - Collection Space Navigator: An Interactive Visualization Interface for
Multidimensional Datasets [0.0]
Collection Space Navigator (CSN)は、視覚的デジタルアーティファクトの大規模なコレクションを探索、研究、キュレーションするためのブラウザベースの可視化ツールである。
CSNは2次元投影と多次元フィルタのセットを組み合わせたカスタマイズ可能なインタフェースを提供する。
ユーザは、プロジェクションやフィルタコントロールなど、自身のデータや研究ニーズに合うように、インターフェースを再設定することができる。
論文 参考訳(メタデータ) (2023-05-11T14:03:26Z) - Augraphy: A Data Augmentation Library for Document Images [59.457999432618614]
Augraphyはデータ拡張パイプラインを構築するためのPythonライブラリである。
標準的なオフィス操作によって変更されたように見えるクリーンなドキュメントイメージの拡張版を作成するための戦略を提供する。
論文 参考訳(メタデータ) (2022-08-30T22:36:19Z) - DocSegTr: An Instance-Level End-to-End Document Image Segmentation
Transformer [16.03084865625318]
ビジネスインテリジェンスプロセスは、しばしばドキュメントから有用なセマンティックコンテンツを抽出する必要がある。
本稿では,文書画像における複雑なレイアウトのエンドツーエンドセグメンテーションのためのトランスフォーマーモデルを提案する。
我々のモデルは、既存の最先端手法に比べて、同等またはより良いセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2022-01-27T10:50:22Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。