論文の概要: Visual Navigation of Digital Libraries: Retrieval and Classification of Images in the National Library of Norway's Digitised Book Collection
- arxiv url: http://arxiv.org/abs/2410.14969v1
- Date: Sat, 19 Oct 2024 04:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:19:23.801513
- Title: Visual Navigation of Digital Libraries: Retrieval and Classification of Images in the National Library of Norway's Digitised Book Collection
- Title(参考訳): デジタルライブラリのビジュアルナビゲーション:ノルウェー国立図書館における画像検索と分類
- Authors: Marie Roald, Magnus Breder Birkenes, Lars Gunnarsønn Bagøien Johnsen,
- Abstract要約: 本稿では,1900年以前のノルウェー国立図書館における画像探索のための概念実証画像検索アプリケーションについて紹介する。
画像検索と分類のために、視覚変換器(ViT)、コントラスト言語画像事前学習(CLIP)、言語画像事前学習(SigLIP)のSigmoid損失を比較した。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License:
- Abstract: Digital tools for text analysis have long been essential for the searchability and accessibility of digitised library collections. Recent computer vision advances have introduced similar capabilities for visual materials, with deep learning-based embeddings showing promise for analysing visual heritage. Given that many books feature visuals in addition to text, taking advantage of these breakthroughs is critical to making library collections open and accessible. In this work, we present a proof-of-concept image search application for exploring images in the National Library of Norway's pre-1900 books, comparing Vision Transformer (ViT), Contrastive Language-Image Pre-training (CLIP), and Sigmoid loss for Language-Image Pre-training (SigLIP) embeddings for image retrieval and classification. Our results show that the application performs well for exact image retrieval, with SigLIP embeddings slightly outperforming CLIP and ViT in both retrieval and classification tasks. Additionally, SigLIP-based image classification can aid in cleaning image datasets from a digitisation pipeline.
- Abstract(参考訳): テキスト分析のためのデジタルツールは、デジタル化された図書館コレクションの検索可能性とアクセシビリティに長い間不可欠である。
最近のコンピュータビジョンの進歩は、ビジュアル素材に類似した機能を導入しており、深層学習に基づく埋め込みは、視覚遺産を分析することを約束している。
多くの書籍がテキストに加えて視覚を特徴としていることを考えると、これらのブレークスルーを活用することは図書館のコレクションをオープンかつアクセスしやすくするために重要である。
本稿では,1900年以前のノルウェーの国立図書館において,視覚変換器(ViT),コントラスト言語-画像事前学習(CLIP),言語-画像事前学習(SigLIP)の組込みによる画像の探索のための概念的画像探索アプリケーションを提案する。
以上の結果から,SigLIP埋め込みはCLIPやViTよりも高い精度で検索・分類処理を行うことができることがわかった。
さらに、SigLIPベースのイメージ分類は、デジタル化パイプラインからのイメージデータセットのクリーニングを支援する。
関連論文リスト
- Transductive Learning for Near-Duplicate Image Detection in Scanned Photo Collections [0.0]
本稿では,実世界のユースケースシナリオにおける近距離画像検出技術の比較研究について述べる。
本稿では、畳み込みニューラルネットワーク(CNN)や視覚変換器(ViT)といった最先端のディープラーニングアーキテクチャを活用するトランスダクティブ学習手法を提案する。
提案手法は,UKBenchと社内のプライベートデータセットにおいて,ほぼ重複画像検出のタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-25T09:56:15Z) - Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models [2.3301643766310374]
視覚的プロンプトをサポートするマルチモーダル大言語モデル(M-LLM)を利用することで,画像の特徴を抽出し,テキストデータに変換する。
従来の視覚言語モデルを用いた手法と比較して,画像検索手法の精度とリコール性能が優れていることを示す。
また,検索クエリにキーワードを反復的に組み込むことにより,検索性能が向上することを示した。
論文 参考訳(メタデータ) (2024-08-29T06:54:03Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Enhancing Image Retrieval : A Comprehensive Study on Photo Search using
the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。
この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文 参考訳(メタデータ) (2024-01-24T17:35:38Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Constructing Image-Text Pair Dataset from Books [10.92677060085447]
本稿では,デジタルアーカイブを機械学習に活用するための新しい手法を提案する。
実験では,古いフォトブックにパイプラインを適用し,画像とテキストのペアのデータセットを構築する。
論文 参考訳(メタデータ) (2023-10-03T10:23:28Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - LAVIS: A Library for Language-Vision Intelligence [98.88477610704938]
LAVISは、LAnguage-VISionの研究と応用のためのオープンソースライブラリである。
最先端の画像言語、ビデオ言語モデル、一般的なデータセットに容易にアクセスできる統一インターフェースを備えている。
論文 参考訳(メタデータ) (2022-09-15T18:04:10Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - PyRetri: A PyTorch-based Library for Unsupervised Image Retrieval by
Deep Convolutional Neural Networks [49.35908338404728]
PyRetriはディープラーニングベースの教師なし画像検索のためのオープンソースライブラリである。
検索プロセスを複数のステージにカプセル化し、各ステージの様々な重要なメソッドをカバーする機能を提供する。
論文 参考訳(メタデータ) (2020-05-02T10:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。