論文の概要: Bag of Bags: Adaptive Visual Vocabularies for Genizah Join Image Retrieval
- arxiv url: http://arxiv.org/abs/2604.08138v1
- Date: Thu, 09 Apr 2026 11:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.898664
- Title: Bag of Bags: Adaptive Visual Vocabularies for Genizah Join Image Retrieval
- Title(参考訳): Bag of Bags:Genizah参加画像検索のための適応的な視覚語彙
- Authors: Sharva Gogawale, Gal Grudka, Daria Vasyutinsky-Shapira, Omer Ventura, Berat Kurar-Barakat, Nachum Dershowitz,
- Abstract要約: Bag of Bags (BoB) は、古典的なBag of Words (BoW) のグローバルレベルのビジュアルコードブックを、局所的なビジュアルワードの断片的な固有語彙に置き換えた画像レベルの表現である。
パイプラインは、二項化フラグメントパッチ上でスパース畳み込みオートエンコーダをトレーニングし、各ページから接続されたコンポーネントをエンコードし、その結果の埋め込みをイメージあたり$k$-meansでクラスタ化し、セットを使用して画像を比較して、ローカル語彙間の距離を設定する。
- 参考スコア(独自算出の注目度): 0.8239164631290947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A join is a set of manuscript fragments identified as originally emanating from the same manuscript. We study manuscript join retrieval: Given a query image of a fragment, retrieve other fragments originating from the same physical manuscript. We propose Bag of Bags (BoB), an image-level representation that replaces the global-level visual codebook of classical Bag of Words (BoW) with a fragment-specific vocabulary of local visual words. Our pipeline trains a sparse convolutional autoencoder on binarized fragment patches, encodes connected components from each page, clusters the resulting embeddings with per image $k$-means, and compares images using set to set distances between their local vocabularies. Evaluated on fragments from the Cairo Genizah, the best BoB variant (viz.\@ Chamfer) achieves Hit@1 of 0.78 and MRR of 0.84, compared to 0.74 and 0.80, respectively, for the strongest BoW baseline (BoW-RawPatches-$χ^2$), a 6.1\% relative improvement in top-1 accuracy. We furthermore study a mass-weighted BoB-OT variant that incorporates cluster population into prototype matching and present a formal approximation guarantee bounding its deviation from full component-level optimal transport. A two-stage pipeline using a BoW shortlist followed by BoB-OT reranking provides a practical compromise between retrieval strength and computational cost, supporting applicability to larger manuscript collections.
- Abstract(参考訳): 結合(じゅん)とは、元々同じ写本から派生したものと同定された写本の断片の集合である。
原稿結合検索について検討する: 断片の問合せ画像が与えられた場合、同じ物理原稿から派生した他の断片を検索する。
本稿では,従来のBag of Words(BoW)のグローバルレベルのビジュアルコードブックを,局所的な視覚単語の断片的な語彙に置き換えた画像レベルのBag of Bags(BoB)を提案する。
パイプラインは、二項化フラグメントパッチ上でスパース畳み込みオートエンコーダをトレーニングし、各ページから接続されたコンポーネントをエンコードし、その結果の埋め込みをイメージあたり$k$-meansでクラスタ化し、セットを使用して画像を比較して、ローカル語彙間の距離を設定する。
カイロ・ジェニザ(Cairo Genizah)の断片で評価され、最も優れたBoB変種(viz)である。
\@Chamfer)は、最強のBoWベースライン(BoW-RawPatches-$\^2$)に対してそれぞれ0.78のHit@1と0.84のMRRを0.74と0.80と比較した。
さらに、クラスタ集団をプロトタイプマッチングに組み込んだ大規模BoB-OT変種について検討し、完全なコンポーネントレベルの最適輸送から逸脱することの保証を正式な近似として提示する。
BoWショートリストとBoB-OTリグレードを併用した2段階パイプラインは、検索強度と計算コストの実質的な妥協を提供し、より大きな原稿コレクションの適用性をサポートする。
関連論文リスト
- HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans [4.62057889157228]
視覚的同時ローカライゼーションとマッピング(SLAM)では、視覚語彙の品質は、環境を表現し、位置を認識するシステムの能力に基礎を置いている。
本稿では,階層型バイナリ・トゥ・リアル・アンド・バック(HBRB)-BoWを提案する。
実験により,提案手法は従来の手法よりも識別的かつよく構造化された語彙が得られることが示された。
論文 参考訳(メタデータ) (2026-03-04T14:58:14Z) - $β$-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment [53.42377319350806]
$-CLIPは、多言語テキスト条件のコントラスト学習フレームワークである。
$-CALは、この階層に固有のセマンティックオーバーラップに対処する。
$-CLIPは、高密度視覚言語対応のための堅牢で適応的なベースラインを確立する。
論文 参考訳(メタデータ) (2025-12-14T13:03:20Z) - A Training-Free Framework for Open-Vocabulary Image Segmentation and Recognition with EfficientNet and CLIP [12.96248884328754]
本稿では,オープンボキャブラリ画像セグメンテーションとオブジェクト認識のための新しい学習自由フレームワークを提案する。
教師なしセグメンテーションには畳み込みニューラルネットワークであるEfficientNetB0を使用し、オープン語彙オブジェクト認識には視覚言語モデルであるCLIPを使用している。
ハンガリーのmIoU、精度、リコール、F1スコアで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-22T07:54:18Z) - Compositional Image-Text Matching and Retrieval by Grounding Entities [1.962396488631213]
本稿では,CLIP埋め込みの学習不要なゼロショット拡張法を提案する。
我々は、オブジェクトのサブイメージの個別の埋め込みと、最先端の開語彙検出器によって局所化される関係を計算する。
結果として得られる埋め込みは、テキスト埋め込みと類似性計算に利用され、画像テキストマッチングの精度が平均1.5%向上する。
論文 参考訳(メタデータ) (2025-05-04T22:18:14Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - CoCosNet v2: Full-Resolution Correspondence Learning for Image
Translation [43.175148260926235]
粗いレベルからの対応を利用して、細かなレベルを導く階層戦略を提案する。
提案したCoCosNet v2は、GRU支援のPatchMatchアプローチであり、完全に微分可能で、非常に効率的である。
多様な翻訳タスクの実験により、CoCosNet v2は高解像度画像の生成において最先端の文献よりもかなり優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-03T16:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。