論文の概要: RIPE: Reinforcement Learning on Unlabeled Image Pairs for Robust Keypoint Extraction
- arxiv url: http://arxiv.org/abs/2507.04839v1
- Date: Mon, 07 Jul 2025 10:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.368973
- Title: RIPE: Reinforcement Learning on Unlabeled Image Pairs for Robust Keypoint Extraction
- Title(参考訳): RIPE:ロバストキーポイント抽出のための未ラベル画像ペアの強化学習
- Authors: Johannes Künzel, Anna Hilsmann, Peter Eisert,
- Abstract要約: キーポイント抽出器の弱教師付きトレーニングのための革新的強化学習に基づくフレームワークについて紹介する。
このフレームワークは、検出タスクと記述タスクの両方に優れています。
- 参考スコア(独自算出の注目度): 3.5229503563299915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RIPE, an innovative reinforcement learning-based framework for weakly-supervised training of a keypoint extractor that excels in both detection and description tasks. In contrast to conventional training regimes that depend heavily on artificial transformations, pre-generated models, or 3D data, RIPE requires only a binary label indicating whether paired images represent the same scene. This minimal supervision significantly expands the pool of training data, enabling the creation of a highly generalized and robust keypoint extractor. RIPE utilizes the encoder's intermediate layers for the description of the keypoints with a hyper-column approach to integrate information from different scales. Additionally, we propose an auxiliary loss to enhance the discriminative capability of the learned descriptors. Comprehensive evaluations on standard benchmarks demonstrate that RIPE simplifies data preparation while achieving competitive performance compared to state-of-the-art techniques, marking a significant advancement in robust keypoint extraction and description. To support further research, we have made our code publicly available at https://github.com/fraunhoferhhi/RIPE.
- Abstract(参考訳): 本稿では、キーポイント抽出器を弱教師付きで学習し、検出タスクと記述タスクの両方に優れる、革新的な強化学習ベースのフレームワークRIPEを紹介する。
人工変換、前生成モデル、または3Dデータに大きく依存する従来の訓練体制とは対照的に、RIPEはペア画像が同じシーンを表すかどうかを示すバイナリラベルのみを必要とする。
この最小限の監督は、訓練データのプールを大きく拡張し、高度に一般化された堅牢なキーポイント抽出器を作成できる。
RIPEはエンコーダの中間層を利用して、異なるスケールの情報を統合するハイパーカラム方式でキーポイントを記述する。
さらに,学習した記述子の識別能力を高めるための補助的損失を提案する。
標準ベンチマークの総合評価では、RIPEは最先端技術と比較して競争性能を保ちながらデータ準備を単純化し、ロバストなキーポイント抽出と記述の大幅な進歩を示している。
さらなる研究を支援するため、私たちはhttps://github.com/fraunhoferhhi/RIPE.comでコードを公開しました。
関連論文リスト
- Your Image Generator Is Your New Private Dataset [4.09225917049674]
生成拡散モデルは、トレーニングデータを合成的に生成する強力なツールとして登場した。
本稿では,これらの課題に対処するために,テクスチャ・コンディションド・ナレッジ・リサイクリング・パイプラインを提案する。
パイプラインは10の多様な画像分類ベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-04-06T18:46:08Z) - A Resource-Efficient Training Framework for Remote Sensing Text--Image Retrieval [5.831764081074079]
RSTIRのための計算とメモリ効率の検索フレームワークを提案する。
トレーニングメモリ使用量を削減するため,Focus-Adapterモジュールを提案する。
提案手法は, メモリ消費を49%削減し, トレーニング中のデータスループットを1.4倍に向上させる。
論文 参考訳(メタデータ) (2025-01-18T02:51:43Z) - InfRS: Incremental Few-Shot Object Detection in Remote Sensing Images [11.916941756499435]
本稿では,リモートセンシング画像におけるインクリメンタルな数ショット物体検出の複雑な課題について検討する。
本稿では,新しい授業の漸進的な学習を促進するために,InfRSと呼ばれる先駆的な微調整技術を導入する。
我々はワッサーシュタイン距離に基づく原型校正戦略を開発し、破滅的な忘れ問題を軽減する。
論文 参考訳(メタデータ) (2024-05-18T13:39:50Z) - Retrieval-Oriented Knowledge for Click-Through Rate Prediction [29.55757862617378]
クリックスルー率(CTR)予測は、パーソナライズされたオンラインサービスにとって不可欠である。
underlineretrieval-underlineoriented underlineknowledge(bfname)フレームワークは、実際の検索プロセスをバイパスする。
nameは、検索および集約された表現を保存および模倣する知識ベースを特徴とする。
論文 参考訳(メタデータ) (2024-04-28T20:21:03Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Disentangled Representation Learning for RF Fingerprint Extraction under
Unknown Channel Statistics [77.13542705329328]
本稿では,まず,不整合表現学習(DRL)の枠組みを提案し,入力信号を逆学習によりデバイス関連成分とデバイス関連成分に分解する。
提案フレームワークにおける暗黙的なデータ拡張は、デバイス非関連チャネル統計の過度な適合を避けるために、RFF抽出器に正規化を課す。
実験により、DR-RFFと呼ばれる提案手法は、未知の複雑な伝播環境に対する一般化可能性の観点から従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-04T15:46:48Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。