Fugu-MT 論文翻訳(概要): Frozen Vision Transformers for Dense Prediction on Small Datasets: A Case Study in Arrow Localization

論文の概要: Frozen Vision Transformers for Dense Prediction on Small Datasets: A Case Study in Arrow Localization

arxiv url: http://arxiv.org/abs/2604.16758v1
Date: Sat, 18 Apr 2026 00:17:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.161782
Title: Frozen Vision Transformers for Dense Prediction on Small Datasets: A Case Study in Arrow Localization
Title（参考訳）: 小型データセットの暗視予測のための凍結型視覚変換器-アローローローカライゼーションを事例として-
Authors: Maxwell Shepherd,
Abstract要約: 本研究では,40,cmの屋内動脈ターゲット面に矢状穴の自動検出,局所化,採点を行うシステムを提案する。私たちのパイプラインは、カラーベースの正準整流ステージ、凍結した自己監督型視覚変換器、そして特徴アップサンプリングという3つのコンポーネントを組み合わせています。 3つの交叉倍数で、平均F1スコアは0.893 pm 0.011$で、平均ローカライゼーション誤差は1.41 pm 0.06$,mmである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a system for automated detection, localization, and scoring of arrow punctures on 40\,cm indoor archery target faces, trained on only 48 annotated photographs (5{,}084 punctures). Our pipeline combines three components: a color-based canonical rectification stage that maps perspective-distorted photographs into a standardized coordinate system where pixel distances correspond to known physical measurements; a frozen self-supervised vision transformer (DINOv3 ViT-L/16) paired with AnyUp guided feature upsampling to recover sub-millimeter spatial precision from $32 \times 32$ patch tokens; and lightweight CenterNet-style detection heads for arrow-center heatmap prediction. Only 3.8\,M of 308\,M total parameters are trainable. Across three cross-validation folds, we achieve a mean F1 score of $0.893 \pm 0.011$ and a mean localization error of $1.41 \pm 0.06$\,mm, comparable to or better than prior fully-supervised approaches that require substantially more training data. An ablation study shows that the CenterNet offset regression head, typically essential for sub-pixel refinement, provides negligible detection improvement while degrading localization in our setting. This suggests that guided feature upsampling already resolves the spatial precision lost through patch tokenization. On downstream archery metrics, the system recovers per-image average arrow scores with a median error of 1.8\% and group centroid positions to within a median of 4.00\,mm. These results demonstrate that frozen foundation models with minimal task-specific adaptation offer a practical paradigm for dense prediction in small-data regimes.
Abstract（参考訳）: そこで本研究では,48枚の注釈写真(5{,}084枚)だけで訓練した40cmの屋内動脈ターゲット面上での矢状穴の自動検出,局所化,および矢状穴の採点システムについて述べる。我々のパイプラインは、3つのコンポーネントを組み合わせている: 視線歪んだ写真が、既知の物理測定値に対応する、標準化された座標系にマッピングされるカラーベースの標準補正ステージ、AnyUpガイド機能アップサンプリングと組み合わせて32ドルのパッチトークンから32ドルの空間精度を回復するフリーズセルフ教師付きビジョントランスフォーマー(DINOv3 ViT-L/16)、矢印中心のヒートマップ予測のための軽量のCenterNetスタイル検出ヘッド。 308\,Mの3.8\,Mのみがトレーニング可能である。 3つのクロスバリデーション・フォールドで、平均F1スコアは0.893 pm 0.011$、平均ローカライゼーション誤差は1.41 pm 0.06$\,mm となる。アブレーション研究では、CenterNetオフセット回帰ヘッドは、通常、サブピクセルリファインメントに必須であり、我々の設定におけるローカライゼーションを劣化させながら、無視可能な検出改善をもたらすことが示されている。このことは、誘導的特徴アップサンプリングがパッチトークン化によって失われる空間的精度を既に解決していることを示唆している。下流のアーチェリー測定では、画像当たりの平均矢印スコアは1.8\%、グループセントロイド位置は4.00\,mmの範囲で回復する。これらの結果から,タスク固有適応が最小限に抑えられた凍結基礎モデルが,小データ体制における高密度予測の実践的パラダイムを提供することが示された。

関連論文リスト

Graph Theoretical Outlier Rejection for 4D Radar Registration in Feature-Poor Environments [0.6171990546748666]
自動車用4Dイメージングレーダーは、ほこりの多い低視界環境での運用に適している。しかし、ノイズやマルチパスリフレクションによるスキャンの間隔と急激な検出のため、登録は依然として困難である。斜線グラフ(PCM)に対するレーダ適応型ペアワイズ距離不変スコアリング関数を提案する。提案手法は,1mセグメントで29.6%,100mセグメントで最大で29.6%削減する。
論文参考訳（メタデータ） (2026-04-16T10:44:47Z)
Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文参考訳（メタデータ） (2025-07-04T04:46:59Z)
FocusTune: Tuning Visual Localization through Focus-Guided Sampling [61.79440120153917]
FocusTuneは、視覚的ローカライゼーションアルゴリズムの性能を改善するための焦点誘導サンプリング技術である。 ACEの魅力ある低ストレージと計算要求を維持しながら、FocusTuneは最先端のパフォーマンスを改善したり、一致させたりします。ハイパフォーマンスとローコンピュートとストレージの要件の組み合わせは、特にモバイルロボティクスや拡張現実といった分野のアプリケーションには有望だ。
論文参考訳（メタデータ） (2023-11-06T04:58:47Z)
Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。 3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文参考訳（メタデータ） (2023-08-20T18:23:07Z)
Convolutional Cross-View Pose Estimation [9.599356978682108]
クロスビューポーズ推定のための新しいエンドツーエンド手法を提案する。提案手法は,VIGORおよびKITTIデータセット上で検証される。オックスフォード・ロボットカーのデータセットでは,エゴ車両の姿勢を時間とともに確実に推定することができる。
論文参考訳（メタデータ） (2023-03-09T13:52:28Z)
Centroid-centered Modeling for Efficient Vision Transformer Pre-training [44.24223088955106]
Masked Image Modeling (MIM)は、視覚変換器(ViT)を用いた新しい自己教師型ビジョン事前学習パラダイムである。提案するCentroid-based approach, CCViT は k-means clustering を利用して画像モデリングのためのCentroid を得る。提案手法は, 外部監督や蒸留訓練を伴わずに, 最近のベースラインと競合する結果が得られる。
論文参考訳（メタデータ） (2023-03-08T15:34:57Z)
Structure-Aware Long Short-Term Memory Network for 3D Cephalometric Landmark Detection [37.031819721889676]
本研究では,3次元ランドマーク検出のための構造対応長短期記憶フレームワーク(SA-LSTM)を提案する。 SA-LSTMは、まず、ダウンサンプリングCBCTボリューム上の熱マップ回帰によって粗いランドマークを見つける。その後、高解像度の収穫パッチを使用して、注意深いオフセット回帰によってランドマークを徐々に洗練する。実験の結果,提案手法は効率と精度で最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2021-07-21T06:35:52Z)
Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文参考訳（メタデータ） (2021-04-21T00:35:32Z)
Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。 1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文参考訳（メタデータ） (2020-06-08T07:24:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。