論文の概要: Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2507.03831v1
- Date: Fri, 04 Jul 2025 22:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.892304
- Title: Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition
- Title(参考訳): 汎用的な視覚的位置認識に向けたマルチデータセット共同学習のためのクエリベースの適応アグリゲーション
- Authors: Jiuhong Xiao, Yang Zhou, Giuseppe Loianno,
- Abstract要約: クエリベースのアダプティブアグリゲーション(QAA)は、学習したクエリを参照コードブックとして活用する、新たな機能アグリゲーション技術である。
QAAは最先端モデルよりも優れており、データセット固有のモデルに匹敵するピーク性能を維持しつつ、多様なデータセット間でのバランスの取れた一般化を実現している。
- 参考スコア(独自算出の注目度): 10.8843105310375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning methods for Visual Place Recognition (VPR) have advanced significantly, largely driven by large-scale datasets. However, most existing approaches are trained on a single dataset, which can introduce dataset-specific inductive biases and limit model generalization. While multi-dataset joint training offers a promising solution for developing universal VPR models, divergences among training datasets can saturate limited information capacity in feature aggregation layers, leading to suboptimal performance. To address these challenges, we propose Query-based Adaptive Aggregation (QAA), a novel feature aggregation technique that leverages learned queries as reference codebooks to effectively enhance information capacity without significant computational or parameter complexity. We show that computing the Cross-query Similarity (CS) between query-level image features and reference codebooks provides a simple yet effective way to generate robust descriptors. Our results demonstrate that QAA outperforms state-of-the-art models, achieving balanced generalization across diverse datasets while maintaining peak performance comparable to dataset-specific models. Ablation studies further explore QAA's mechanisms and scalability. Visualizations reveal that the learned queries exhibit diverse attention patterns across datasets. Code will be publicly released.
- Abstract(参考訳): 視覚的位置認識(VPR)のためのディープラーニング手法は、大規模データセットによって大きく進歩している。
しかし、既存のアプローチのほとんどは単一のデータセットでトレーニングされており、データセット固有の帰納バイアスとモデル一般化の制限を導入することができる。
マルチデータセットのジョイントトレーニングは、普遍的なVPRモデルを開発するための有望なソリューションを提供するが、トレーニングデータセット間のばらつきは、特徴集約層で限られた情報容量を飽和させ、最適以下のパフォーマンスをもたらすことができる。
これらの課題に対処するため、我々は、学習したクエリを参照コードブックとして活用し、重要な計算やパラメータの複雑さを伴わずに情報容量を効果的に増強する、新しい特徴集約技術であるクエリベースの適応集約(QAA)を提案する。
クエリレベルの画像特徴と参照コードブック間のクロスクエリ類似性(CS)の計算は、堅牢な記述子を生成するための単純かつ効果的な方法であることを示す。
その結果、QAAは最先端モデルよりも優れており、データセット固有のモデルに匹敵するピーク性能を維持しつつ、多様なデータセット間でのバランスの取れた一般化を実現している。
アブレーション研究はQAAのメカニズムとスケーラビリティをさらに探求している。
可視化により、学習したクエリはデータセット間でさまざまな注意パターンを示すことが明らかになった。
コードは公開されます。
関連論文リスト
- Comprehend, Divide, and Conquer: Feature Subspace Exploration via Multi-Agent Hierarchical Reinforcement Learning [10.317489871533565]
本稿では,複雑なデータセットに対する強化学習に基づく部分空間探索戦略であるHRLFSを紹介する。
HRLFSは、反復的な特徴空間探索により、下流機械学習性能を向上させる。
また,HRLFSは関与するエージェントの数を減らし,総実行時間を短縮することを示した。
論文 参考訳(メタデータ) (2025-04-24T08:16:36Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client Vectors [50.131271229165165]
Federated Learning (FL)は、分散機械学習のための有望なフレームワークとして登場した。
ユーザの行動、好み、デバイス特性の相違から生じるデータの異質性は、連合学習にとって重要な課題である。
本稿では,学習過程におけるクライアントベクトルに基づくアダプティブ重み付けを適応的に調整する手法であるAdaptive Weight Aggregation (FedAWA)を提案する。
論文 参考訳(メタデータ) (2025-03-20T04:49:40Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics [4.237343083490243]
機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されている。
StackGenVisは、スタック化された一般化のためのビジュアル分析システムである。
論文 参考訳(メタデータ) (2020-05-04T15:43:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。