論文の概要: Reading a Ruler in the Wild
- arxiv url: http://arxiv.org/abs/2507.07077v1
- Date: Wed, 09 Jul 2025 17:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.712963
- Title: Reading a Ruler in the Wild
- Title(参考訳): 野生のルールを読む
- Authors: Yimu Pan, Manas Mehta, Gwen Sincerbeaux, Jeffery A. Goldstein, Alison D. Gernand, James Z. Wang,
- Abstract要約: ピクセル計測を絶対的な実世界の次元に正確に変換することは、コンピュータビジョンにおける根本的な課題である。
RulerNetは“野生の”スケールを強く推論するディープラーニングフレームワークです。
実験によると、RetrorNetは現実世界の挑戦的な条件下で、正確で一貫性があり、効率的なスケール推定を提供する。
- 参考スコア(独自算出の注目度): 1.4785540163232234
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurately converting pixel measurements into absolute real-world dimensions remains a fundamental challenge in computer vision and limits progress in key applications such as biomedicine, forensics, nutritional analysis, and e-commerce. We introduce RulerNet, a deep learning framework that robustly infers scale "in the wild" by reformulating ruler reading as a unified keypoint-detection problem and by representing the ruler with geometric-progression parameters that are invariant to perspective transformations. Unlike traditional methods that rely on handcrafted thresholds or rigid, ruler-specific pipelines, RulerNet directly localizes centimeter marks using a distortion-invariant annotation and training strategy, enabling strong generalization across diverse ruler types and imaging conditions while mitigating data scarcity. We also present a scalable synthetic-data pipeline that combines graphics-based ruler generation with ControlNet to add photorealistic context, greatly increasing training diversity and improving performance. To further enhance robustness and efficiency, we propose DeepGP, a lightweight feed-forward network that regresses geometric-progression parameters from noisy marks and eliminates iterative optimization, enabling real-time scale estimation on mobile or edge devices. Experiments show that RulerNet delivers accurate, consistent, and efficient scale estimates under challenging real-world conditions. These results underscore its utility as a generalizable measurement tool and its potential for integration with other vision components for automated, scale-aware analysis in high-impact domains. A live demo is available at https://huggingface.co/spaces/ymp5078/RulerNet-Demo.
- Abstract(参考訳): 正確なピクセル測定を絶対的な実世界の次元に変換することは、コンピュータビジョンにおける根本的な課題であり、バイオメディシン、法医学、栄養分析、電子商取引といった主要な応用における進歩を制限する。
本稿では,一貫したキーポイント検出問題として支配者読影を再構成し,視点変換に不変な幾何学的プログレッションパラメータで支配者を表現することによって,その規模を「野生」に頑健に推論するディープラーニングフレームワークであるRetrorNetを紹介する。
手作りのしきい値や厳密な定規固有のパイプラインに依存する従来の方法とは異なり、ReulerNetは歪み不変のアノテーションとトレーニング戦略を使用してセンチメートルマークを直接ローカライズし、データ不足を軽減しながら、さまざまな定規タイプや撮像条件を強く一般化する。
また、グラフィックベースの定規生成とControlNetを組み合わせたスケーラブルな合成データパイプラインを提案し、フォトリアリスティックなコンテキストを追加し、トレーニングの多様性を大幅に向上させ、パフォーマンスを向上させる。
強靭性と効率性をさらに向上するため,我々は,幾何学的パラメータをノイズマークから退避させる軽量フィードフォワードネットワークであるDeepGPを提案し,モバイルやエッジデバイス上でのリアルタイムなスケール推定を実現する。
実験によると、RetrorNetは現実世界の挑戦的な条件下で、正確で一貫性があり、効率的なスケール推定を提供する。
これらの結果は、汎用化可能な測定ツールとしての有用性と、高インパクト領域における自動スケール認識分析のための他のビジョンコンポーネントとの統合の可能性を強調している。
ライブデモはhttps://huggingface.co/spaces/ymp5078/RulerNet-Demoで公開されている。
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - A survey on efficient vision transformers: algorithms, techniques, and
performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文 参考訳(メタデータ) (2023-09-05T08:21:16Z) - General Neural Gauge Fields [100.35916421218101]
我々はゲージ変換とニューラルネットワークを協調的に最適化する学習フレームワークを開発した。
我々は、シーン情報を本質的に保存し、優れた性能を得ることができる情報不変ゲージ変換を導出する。
論文 参考訳(メタデータ) (2023-05-05T12:08:57Z) - LGC-Net: A Lightweight Gyroscope Calibration Network for Efficient
Attitude Estimation [10.468378902106613]
本稿では,低コストマイクロエレクトロメカニカル・システム(MEMS)ジャイロスコープを分解し,ロボットの姿勢をリアルタイムで推定するキャリブレーションニューラルネットワークモデルを提案する。
鍵となるアイデアは、慣性測定ユニット(IMU)測定の時間窓から局所的および大域的特徴を抽出し、ジャイロスコープの出力補償成分を動的に回帰させることである。
提案アルゴリズムはEuRoCおよびTUM-VIデータセットで評価され、より軽量なモデル構造で(目に見えない)テストシーケンスの最先端化を実現する。
論文 参考訳(メタデータ) (2022-09-19T08:03:03Z) - Geometry-Guided Progressive NeRF for Generalizable and Efficient Neural
Human Rendering [139.159534903657]
我々は、高忠実度自由視点人体詳細のための一般化可能で効率的なニューラルレーダランス・フィールド(NeRF)パイプラインを開発した。
自己閉塞性を改善するため,幾何誘導型多視点機能統合手法を考案した。
高いレンダリング効率を達成するため,幾何誘導型プログレッシブレンダリングパイプラインを導入する。
論文 参考訳(メタデータ) (2021-12-08T14:42:10Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Improving the generalization of network based relative pose regression:
dimension reduction as a regularizer [16.63174637692875]
最先端のビジュアルローカライゼーション手法は、RANSACフレームワーク内の幾何に基づく解法を用いてポーズ推定を行う。
エンドツーエンドの学習に基づく回帰ネットワークは、正確なピクセルレベルの対応の要求を回避するためのソリューションを提供する。
本稿では,絶対像特徴値からポーズ回帰解法を分離するために,ネットワーク内に学習可能なマッチング層を明示的に追加する。
我々はこの次元正規化戦略を2層ピラミッドベースのフレームワークで実装し、局所化結果を粗いものから細かいものへと回帰する。
論文 参考訳(メタデータ) (2020-10-24T06:20:46Z) - ProAlignNet : Unsupervised Learning for Progressively Aligning Noisy
Contours [12.791313859673187]
ProAlignNetは、輪郭形状間の大規模なミスアライメントと複雑な変換を説明できる。
近接感度および局所形状依存類似度測定値の上界から導出される新しい損失関数を用いて学習する。
実世界の2つの応用において、提案したモデルは最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2020-05-23T14:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。