Fugu-MT 論文翻訳(概要): From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

論文の概要: From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

arxiv url: http://arxiv.org/abs/2602.20630v1
Date: Tue, 24 Feb 2026 07:24:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.646006
Title: From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection
Title（参考訳）: ペアからシーケンスへ:キーポイント検出のためのトラックアウェアポリシー勾配
Authors: Yepeng Liu, Hao Li, Liwen Yang, Fangzhen Li, Xudi Ge, Yuliang Gu, kuang Gao, Bing Wang, Guang Chen, Hangjun Ye, Yongchao Xu,
Abstract要約: キーポイントベースのマッチングは、Structure-from-Motion (SfM) やSLAMといった現代の3Dビジョンシステムの基本コンポーネントである。本稿では,キーポイントを直接画像シーケンス上で最適化する新しいエンドツーエンド強化学習フレームワークであるTraqPointを紹介する。私たちの中核的なイノベーションは、複数のビューにまたがるキーポイントの一貫性と特異性を共同で促進する、トラックアウェアの報酬メカニズムです。
参考スコア（独自算出の注目度）: 23.384541298514574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Keypoint-based matching is a fundamental component of modern 3D vision systems, such as Structure-from-Motion (SfM) and SLAM. Most existing learning-based methods are trained on image pairs, a paradigm that fails to explicitly optimize for the long-term trackability of keypoints across sequences under challenging viewpoint and illumination changes. In this paper, we reframe keypoint detection as a sequential decision-making problem. We introduce TraqPoint, a novel, end-to-end Reinforcement Learning (RL) framework designed to optimize the \textbf{Tra}ck-\textbf{q}uality (Traq) of keypoints directly on image sequences. Our core innovation is a track-aware reward mechanism that jointly encourages the consistency and distinctiveness of keypoints across multiple views, guided by a policy gradient method. Extensive evaluations on sparse matching benchmarks, including relative pose estimation and 3D reconstruction, demonstrate that TraqPoint significantly outperforms some state-of-the-art (SOTA) keypoint detection and description methods.
Abstract（参考訳）: キーポイントベースのマッチングは、Structure-from-Motion (SfM) やSLAMといった現代の3Dビジョンシステムの基本コンポーネントである。既存の学習ベースのほとんどの手法はイメージペアに基づいて訓練されている。これは、難解な視点と照度の変化の下で、シーケンス間のキーポイントの長期追跡性を明示的に最適化できないパラダイムである。本稿では,キーポイント検出を逐次決定問題として再検討する。画像シーケンスに直接キーポイントの \textbf{Tra}ck-\textbf{q}uality (Traq) を最適化するために設計された,新しいエンドツーエンド強化学習(RL)フレームワークであるTraqPointを紹介する。私たちの中核的なイノベーションは、ポリシー勾配法によって導かれる、複数のビューにわたるキーポイントの一貫性と特異性を共同で促進する、トラックアウェアの報酬メカニズムです。相対的なポーズ推定や3次元再構成を含むスパースマッチングベンチマークの広範囲な評価は、TraqPointがいくつかの最先端(SOTA)キーポイントの検出と記述方法よりも大幅に優れていることを示した。

関連論文リスト

FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM [50.9765003472032]
FoundationSLAMは、正確でロバストな追跡とマッピングのための学習ベースの単分子高密度SLAMシステムである。我々の中核となる考え方は、基礎深度モデルからのガイダンスを活用することによって、推論によるフロー推定をブリッジすることである。
論文参考訳（メタデータ） (2025-12-31T17:57:45Z)
GMM-IKRS: Gaussian Mixture Models for Interpretable Keypoint Refinement and Scoring [9.322937309882022]
キーポイントには、品質に応じてスコアをランク付けできるスコアが付属する。学習されたキーポイントは手作りのものよりも優れた特性を示すことが多いが、それらのスコアは容易に解釈できない。本稿では,どの手法でも抽出したキーポイントを解釈可能なスコアで特徴付けることができるフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-30T09:39:59Z)
D3Former: Jointly Learning Repeatable Dense Detectors and Feature-enhanced Descriptors via Saliency-guided Transformer [14.056531181678467]
我々は、リピータブルなtextbfDetector と機能強化された textbfDescriptors の合同学習を必要とする textitD3Former と呼ばれるサリエンシ誘導型 Transtextbfformer を導入する。提案手法は,常に最先端のクラウドマッチング手法より優れている。
論文参考訳（メタデータ） (2023-12-20T12:19:17Z)
Back to 3D: Few-Shot 3D Keypoint Detection with Back-Projected 2D Features [64.39691149255717]
3次元形状のキーポイント検出には意味的および幾何学的認識が必要である。我々はキーポイント候補最適化モジュールを用いて,その形状上のキーポイントの平均分布を一致させる。結果として得られたアプローチは、KeyPointNetデータセットで数ショットのキーポイント検出のための新しい状態を実現する。
論文参考訳（メタデータ） (2023-11-29T21:58:41Z)
Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文参考訳（メタデータ） (2023-10-08T07:42:41Z)
KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration [28.96448680048584]
KeyPoint Positioning System (KeyPosS) は、関心点と完全な畳み込みネットワークによって予測されるアンカー点の距離を三角にして正確なランドマーク座標を導出する最初のフレームワークである。 4つのデータセットの実験では、計算オーバーヘッドが最小限であるにもかかわらず、KeyPosSは、解像度の低い設定で既存のメソッドを上回り、最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2023-05-25T19:30:21Z)
From Keypoints to Object Landmarks via Self-Training Correspondence: A novel approach to Unsupervised Landmark Discovery [37.78933209094847]
本稿ではオブジェクトランドマーク検出器の教師なし学習のための新しいパラダイムを提案する。我々はLS3D、BBCPose、Human3.6M、PennActionなどの難解なデータセットに対して本手法の有効性を検証した。
論文参考訳（メタデータ） (2022-05-31T15:44:29Z)
Self-Supervised Equivariant Learning for Oriented Keypoint Detection [35.94215211409985]
我々は、回転同変CNNを用いた自己教師付き学習フレームワークを導入し、ロバスト指向キーポイントの検出を学習する。ヒストグラムに基づく配向マップのトレーニングのために,合成変換により生成した画像対による高密度配向損失を提案する。提案手法は,画像マッチングベンチマークとカメラポーズ推定ベンチマークにおいて,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2022-04-19T02:26:07Z)
SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文参考訳（メタデータ） (2022-01-06T08:54:47Z)
Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints [80.60538408386016]
連続するフレームから相対的なカメラのポーズを推定することは、視覚計測の基本的な問題である。本稿では,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールで構成されるエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文参考訳（メタデータ） (2020-07-29T21:41:31Z)
Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。 CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文参考訳（メタデータ） (2020-02-03T02:24:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。