論文の概要: CraterBench-R: Instance-Level Crater Retrieval for Planetary Scale
- arxiv url: http://arxiv.org/abs/2604.06245v1
- Date: Mon, 06 Apr 2026 03:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.110108
- Title: CraterBench-R: Instance-Level Crater Retrieval for Planetary Scale
- Title(参考訳): CraterBench-R:惑星スケールのインスタンスレベルクレーター検索
- Authors: Jichao Fang, Lei Zhang, Michael Phillips, Wei Luo,
- Abstract要約: CraterBench-Rは、キュレートされたベンチマークで、25,000個のクレーターのアイデンティティとマルチスケールのギャラリービューを特徴としている。
評価の結果,自己監督型視覚変換器(ViT)がタスクを担っていることが明らかとなった。
我々は、Kシードトークンを選択し、コサイン類似性によって残りのトークンをこれらのシードに割り当て、各クラスタを単一の代表トークンに集約するスケーラブルでトレーニング不要な手法であるインスタンストークンアグリゲーションを提案する。
- 参考スコア(独自算出の注目度): 8.898996772941716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Impact craters are a cornerstone of planetary surface analysis. However, while most deep learning pipelines treat craters solely as a detection problem, critical scientific workflows such as catalog deduplication, cross-observation matching, and morphological analog discovery are inherently retrieval tasks. To address this, we formulate crater analysis as an instance-level image retrieval problem and introduce CraterBench-R, a curated benchmark featuring about 25,000 crater identities with multi-scale gallery views and manually verified queries spanning diverse scales and contexts. Our baseline evaluations across various architectures reveal that self-supervised Vision Transformers (ViTs), particularly those with in-domain pretraining, dominate the task, outperforming generic models with significantly more parameters. Furthermore, we demonstrate that retaining multiple ViT patch tokens for late-interaction matching dramatically improves accuracy over standard single-vector pooling. However, storing all tokens per image is operationally inefficient at a planetary scale. To close this efficiency gap, we propose instance-token aggregation, a scalable, training-free method that selects K seed tokens, assigns the remaining tokens to these seeds via cosine similarity, and aggregates each cluster into a single representative token. This approach yields substantial gains: at K=16, aggregation improves mAP by 17.9 points over raw token selection, and at K=64, it matches the accuracy of using all 196 tokens with significantly less storage. Finally, we demonstrate that a practical two-stage pipeline, with single-vector shortlisting followed by instance-token reranking, recovers 89-94% of the full late-interaction accuracy while searching only a small candidate set. The benchmark is publicly available at hf.co/datasets/jfang/CraterBench-R.
- Abstract(参考訳): 衝突クレーターは惑星の表面分析の土台である。
しかし、ほとんどのディープラーニングパイプラインはクレーターを検出問題としてのみ扱うが、カタログの重複、相互観測マッチング、形態学的アナログ発見といった重要な科学的ワークフローは本質的には検索タスクである。
これを解決するために、クレーター解析をインスタンスレベルの画像検索問題として定式化し、クレーターのアイデンティティが約25,000個あり、複数スケールのギャラリービューと、さまざまなスケールやコンテキストにまたがる手動で検証されたクエリを含むキュレートされたベンチマークであるCraterBench-Rを導入する。
各種アーキテクチャを対象としたベースライン評価の結果,特にドメイン内事前学習を行う場合のビジョントランスフォーマー(ViT)がタスクを支配し,パラメータが大幅に増加し,ジェネリックモデルよりも優れていたことが判明した。
さらに,複数のViTパッチトークンを遅延処理マッチングに保持することは,標準の単一ベクトルプールよりも精度を劇的に向上させることを示した。
しかし、画像ごとに全てのトークンを保存することは、惑星スケールで運用的に非効率である。
この効率ギャップを埋めるために、Kシードトークンを選択し、残りのトークンをコサイン類似性によってこれらのシードに割り当て、各クラスタを単一の代表トークンに集約する、スケーラブルでトレーニング不要な手法であるインスタンストークンアグリゲーションを提案する。
K=16では、アグリゲーションは生のトークン選択よりも17.9ポイント向上し、K=64では196個のトークンを使用する精度が大幅に低い。
最後に,シングルベクタショートリストとインスタンスツーケン再ランクを併用した実用的2段階パイプラインが,小さな候補セットのみを検索しながら,遅延処理の完全精度の89~94%を回復することを示した。
ベンチマークはhf.co/datasets/jfang/CraterBench-Rで公開されている。
関連論文リスト
- A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification [2.0069888187253615]
生産LLMシステムは、安全と他の分類の重いステップのために、しばしば別々のモデルに依存している。
代わりに、私たちはLLMによって既に支払われた計算を再利用し、隠れた状態の軽量プローブを訓練し、生成に使用する同じ前方パスでラベルを予測する。
論文 参考訳(メタデータ) (2026-01-19T18:40:29Z) - Single-pass Adaptive Image Tokenization for Minimum Program Search [75.59409288259151]
本稿では,単一前方通過における画像に対する適切なトークン数を予測する単一パス適応型トークン化器KARLを提案する。
KARLは、1回のパスで動作しながら、最近の適応トークン化器の性能と一致する。
論文 参考訳(メタデータ) (2025-07-10T17:59:53Z) - Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation [43.09801987385207]
対照的に、CLIP(Contrastive Language- Image Pretraining)は、一般化可能な画像表現の学習において優れているが、特定のデータセットのゼロショット推論では不足することが多い。
テスト時間適応(TTA)は、正規化レイヤやコンテキストプロンプトなどのコンポーネントを調整することでこの問題を軽減するが、通常は大きなバッチサイズと広範な拡張を必要とする。
本稿では,TCA(Token Condensation as Adaptation)を提案する。
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Token Sparsification for Faster Medical Image Segmentation [37.25161294917211]
セグメント化をスパース符号化 ->トークン補完 -> 密度復号化(SCD)パイプラインとして再構成する。
STPは軽量なサブネットワークで重要度を予測し、トップKトークンをサンプリングする。
MTAはスパース出力トークンとプルーニングされた多層中間トークンの両方を組み立てることで、完全なトークンシーケンスを復元する。
論文 参考訳(メタデータ) (2023-03-11T23:59:13Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - DETRs with Hybrid Matching [21.63116788914251]
1対1のセットマッチングは、DETRがエンドツーエンドの機能を確立するための鍵となる設計である。
本稿では,従来の1対1のマッチングブランチと,トレーニング中に補助的な1対1のマッチングブランチを組み合わせるハイブリッドマッチング方式を提案する。
論文 参考訳(メタデータ) (2022-07-26T17:52:14Z) - Group R-CNN for Weakly Semi-supervised Object Detection with Points [18.720915213798623]
本稿では,グループR-CNNの効率的なポイントツーボックス回帰器を提案する。
グループR-CNNはまず、各ポイントアノテーションに対する提案のグループを生成するために、インスタンスレベルの提案グループを使用する。
我々は,グループR-CNNが先行手法であるポイントDETRの3.9mAPと5%の良好なラベル付き画像より有意に優れていたことを示す。
論文 参考訳(メタデータ) (2022-05-12T07:17:54Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。