論文の概要: A Study of PHOC Spatial Region Configurations for Math Formula Retrieval
- arxiv url: http://arxiv.org/abs/2408.09283v1
- Date: Sat, 17 Aug 2024 20:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 17:51:47.058045
- Title: A Study of PHOC Spatial Region Configurations for Math Formula Retrieval
- Title(参考訳): 数式検索のためのPHOC空間領域構成の検討
- Authors: Matt Langsenkamp, Bryan Amador, Richard Zanibbi,
- Abstract要約: 文字のピラミッドヒストグラム(PHOC)は記号の空間的位置を二進ベクトルとして表している。
PHOCは数学に特化せず、化学図、チャート、その他のグラフィックに使用される。
- 参考スコア(独自算出の注目度): 3.6594988197536344
- License:
- Abstract: A Pyramidal Histogram Of Characters (PHOC) represents the spatial location of symbols as binary vectors. The vectors are composed of levels that split a formula into equal-sized regions of one or more types (e.g., rectangles or ellipses). For each region type, this produces a pyramid of overlapping regions, where the first level contains the entire formula, and the final level the finest-grained regions. In this work, we introduce concentric rectangles for regions, and analyze whether subsequent PHOC levels encode redundant information by omitting levels from PHOC configurations. As a baseline, we include a bag of words PHOC containing only the first whole-formula level. Finally, using the ARQMath-3 formula retrieval benchmark, we demonstrate that some levels encoded in the original PHOC configurations are redundant, that PHOC models with rectangular regions outperform earlier PHOC models, and that despite their simplicity, PHOC models are surprisingly competitive with the state-of-the-art. PHOC is not math-specific, and might be used for chemical diagrams, charts, or other graphics.
- Abstract(参考訳): 文字のピラミッドヒストグラム(PHOC)は記号の空間的位置を二進ベクトルとして表す。
ベクトルは、式を1つ以上の型(例えば、矩形、楕円形)の等サイズの領域に分割するレベルで構成されている。
各領域タイプに対して、これは重なり合う領域のピラミッドを生成し、第1のレベルは、式全体を含み、最終のレベルは、最もきめ細かい領域である。
本研究では、領域の同心長方形を導入し、後続のPHOCレベルが、PHOC構成のレベルを省略することで冗長情報を符号化するかどうかを分析する。
ベースラインとして、第1の形式レベルのみを含む単語PHOCの袋を含める。
最後に,ARQMath-3式解析ベンチマークを用いて,元のPHOC構成に符号化されたいくつかのレベルが冗長であること,矩形領域を持つPHOCモデルが以前のPHOCモデルより優れていること,そしてその単純さにもかかわらず,PHOCモデルは最先端モデルと驚くほど競合することを示した。
PHOCは数学に特化せず、化学図、チャート、その他のグラフィックに使用される。
関連論文リスト
- TorchSpatial: A Location Encoding Framework and Benchmark for Spatial Representation Learning [36.725822223732635]
位置(ポイント)エンコーディングのための学習フレームワークとベンチマークであるTorchSpatialを提案する。
TorchSpatialには3つの重要なコンポーネントが含まれている: 1) 一般的に認識されている15のロケーションエンコーダを統合する統合されたロケーションエンコーダフレームワーク、2) LocBenchベンチマークタスクは、7つのジオアウェアイメージ分類と4つのジオアウェアイメージ回帰データセットを含む。
論文 参考訳(メタデータ) (2024-06-21T21:33:16Z) - CoFie: Learning Compact Neural Surface Representations with Coordinate Fields [33.09928834250562]
CoFie は局所 SDF の二次近似による理論的解析によって動機付けられる。
すべての局所形状の座標フレームの合成である座標場を導入する。
CoFieは、トレーニングと見えない形状の両方の新しい例で、形状エラーを48%、そして56%削減する。
論文 参考訳(メタデータ) (2024-06-05T16:12:19Z) - Going beyond persistent homology using persistent homology [5.724311218570011]
この重要な問題に対する完全な解決を提供するために、色分離集合という新しい概念を導入する。
グラフ上のトポロジ的特徴を学習するためのRePHINEを提案する。
論文 参考訳(メタデータ) (2023-11-10T16:12:35Z) - Zero-Shot 3D Shape Correspondence [67.18775201037732]
本稿では,3次元形状間の対応性を計算するためのゼロショット手法を提案する。
我々は、最近の基礎モデルの言語と視覚における例外的な推論能力を活用している。
提案手法は, 強い非等尺形状の間において, ゼロショット方式で高確率な結果をもたらす。
論文 参考訳(メタデータ) (2023-06-05T21:14:23Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Graph Spectral Embedding using the Geodesic Betweeness Centrality [76.27138343125985]
本稿では、局所的な類似性、接続性、グローバル構造を教師なしで表現するグラフSylvester Embedding (GSE)を紹介する。
GSEはシルヴェスター方程式の解を用いて、ネットワーク構造と近傍の近接を1つの表現で捉える。
論文 参考訳(メタデータ) (2022-05-07T04:11:23Z) - Unified Representation of Geometric Primitives for Graph-SLAM
Optimization Using Decomposed Quadrics [12.096145632383418]
この研究は、高レベルの幾何学的プリミティブのパラメータ化問題に焦点を当てている。
まず、これらの幾何学的プリミティブの統一表現を、一貫した簡潔な定式化をもたらすエンフカドリックを用いて提示する。
シミュレーション実験では, 分解された定式化は, 基本パラメータ化よりも高い効率とロバスト性を有することが示された。
論文 参考訳(メタデータ) (2021-08-20T01:06:51Z) - The Neurally-Guided Shape Parser: A Monte Carlo Method for Hierarchical
Labeling of Over-segmented 3D Shapes [15.856188608650232]
我々はニューラルガイド形状を提示する。
NGSPは、過剰な3次元形状の領域に意味ラベルを割り当てる方法を学ぶ方法である。
生成した3次元形状の階層的セマンティックセマンティックセグメンテーションにおけるNGSPの評価を行った。
論文 参考訳(メタデータ) (2021-06-22T19:26:01Z) - Emergence of Lie symmetries in functional architectures learned by CNNs [63.69764116066748]
本研究では,自然画像の学習において,畳み込みニューラルネットワーク(CNN)の初期層における対称性の自発的発達について検討する。
私たちのアーキテクチャは、生体視覚システムの初期段階を模倣するために構築されています。
論文 参考訳(メタデータ) (2021-04-17T13:23:26Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Fine-Grained 3D Shape Classification with Hierarchical Part-View
Attentions [70.0171362989609]
本稿では,FG3D-Netと呼ばれる新しい3次元形状分類手法を提案する。
詳細な3次元形状データセットに基づく結果から,本手法が他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T06:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。