論文の概要: Digital Collections Explorer: An Open-Source, Multimodal Viewer for Searching Digital Collections
- arxiv url: http://arxiv.org/abs/2507.00961v1
- Date: Tue, 01 Jul 2025 17:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.744518
- Title: Digital Collections Explorer: An Open-Source, Multimodal Viewer for Searching Digital Collections
- Title(参考訳): Digital Collections Explorer: デジタルコレクションを検索するためのオープンソースのマルチモーダルビューア
- Authors: Ying-Hsiang Huang, Benjamin Charles Germain Lee,
- Abstract要約: Digital Collections Explorer(デジタルコレクションエクスプローラー)は、ウェブベースのオープンソースの探索検索プラットフォームである。
我々のインターフェースは、視覚的特徴を持つデジタルコレクション上で自然言語クエリと逆画像検索を可能にする。
本稿では, システムのアーキテクチャ, 実装, 各種文化財コレクションへの適用について述べる。
- 参考スコア(独自算出の注目度): 0.09208007322096533
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Digital Collections Explorer, a web-based, open-source exploratory search platform that leverages CLIP (Contrastive Language-Image Pre-training) for enhanced visual discovery of digital collections. Our Digital Collections Explorer can be installed locally and configured to run on a visual collection of interest on disk in just a few steps. Building upon recent advances in multimodal search techniques, our interface enables natural language queries and reverse image searches over digital collections with visual features. This paper describes the system's architecture, implementation, and application to various cultural heritage collections, demonstrating its potential for democratizing access to digital archives, especially those with impoverished metadata. We present case studies with maps, photographs, and PDFs extracted from web archives in order to demonstrate the flexibility of the Digital Collections Explorer, as well as its ease of use. We demonstrate that the Digital Collections Explorer scales to hundreds of thousands of images on a MacBook Pro with an M4 chip. Lastly, we host a public demo of Digital Collections Explorer.
- Abstract(参考訳): 本稿では,CLIP(Contrastive Language- Image Pre-training)を利用したWebベースのオープンソースの探索検索プラットフォームであるDigital Collections Explorerについて紹介する。
我々のDigital Collections Explorerはローカルにインストールでき、わずか数ステップでディスク上の視覚的なコレクション上で動作するように設定できます。
近年のマルチモーダル検索技術により,視覚的特徴を持つデジタルコレクション上での自然言語クエリと逆画像検索が可能になった。
本稿では,デジタルアーカイブ,特に不十分なメタデータへのアクセスを民主化する可能性を示すとともに,そのアーキテクチャ,実装,各種文化遺産コレクションへの適用について述べる。
本稿では,Digital Collections Explorerの柔軟性と使いやすさを示すために,Webアーカイブから抽出した地図,写真,PDFのケーススタディを提案する。
われわれはDigital Collections ExplorerがM4チップを搭載したMacBook Proで何十万もの画像にスケールできることを実証した。
最後に、Digital Collections Explorerの公開デモをホストします。
関連論文リスト
- Knowledge Graphs for Digitized Manuscripts in Jagiellonian Digital Library Application [8.732274235941974]
美術館、図書館、資料館、博物館(GLAM)は積極的に蔵書をデジタル化し、広範なデジタルコレクションを作成している。
これらのコレクションには、アイテムを記述するメタデータが備わっていることが多いが、その内容は正確には書かれていない。
本稿では,コンピュータビジョン(CV),人工知能(AI),セマンティックWeb技術の統合手法を探求し,メタデータを充実させ,デジタル化された原稿やインキュナブラの知識グラフを構築する。
論文 参考訳(メタデータ) (2025-05-29T14:49:24Z) - Explainable Search and Discovery of Visual Cultural Heritage Collections with Multimodal Large Language Models [0.0]
本稿では,最先端のマルチモーダル言語モデル (LLM) を用いて,ビジュアルコレクションのためのオープンで説明可能な検索・発見インターフェースを実現する手法を提案する。
我々は,視覚的な埋め込みをベースとした手法の共通の落とし穴を避けるために,新しいクラスタリングとレコメンデーションシステムを構築する方法を示す。
論文 参考訳(メタデータ) (2024-11-07T12:48:39Z) - Visual Navigation of Digital Libraries: Retrieval and Classification of Images in the National Library of Norway's Digitised Book Collection [0.3277163122167433]
本稿では,1900年以前のノルウェー国立図書館における画像探索のための概念実証画像検索アプリケーションについて紹介する。
画像検索と分類のために、視覚変換器(ViT)、コントラスト言語画像事前学習(CLIP)、言語画像事前学習(SigLIP)のSigmoid損失を比較した。
論文 参考訳(メタデータ) (2024-10-19T04:20:23Z) - Algorithmic Ways of Seeing: Using Object Detection to Facilitate Art Exploration [8.680322662037721]
視覚的な探索のための設計プロセスにオブジェクト検出パイプラインを組み込む方法を示す。
本稿では,美術館のコレクションを探索するアプリの設計と開発について紹介する。
論文 参考訳(メタデータ) (2024-03-28T06:46:45Z) - Blind Dates: Examining the Expression of Temporality in Historical
Photographs [57.07335632641355]
マルチモーダル言語とビジョンモデルであるCLIPのオープンソース実装であるOpenCLIPを用いて、画像の日付を調査する。
我々は1950年から1999年までの39,866枚のグレースケールの歴史的プレス写真を含むtextitDe Boer Scene Detectionデータセットを使用している。
解析の結果、バス、車、猫、犬、そして人々が写っている画像はより正確に年代付けされており、時間的マーカーの存在が示唆されている。
論文 参考訳(メタデータ) (2023-10-10T13:51:24Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Probabilistic Compositional Embeddings for Multimodal Image Retrieval [48.450232527041436]
画像検索において複数のマルチモーダルクエリを構成する上で,より困難なシナリオについて検討する。
任意の数のクエリイメージと(あるいは)テキストが与えられた場合、我々のゴールは、複数のマルチモーダルクエリで指定されたセマンティックな概念を含むターゲットイメージを検索することである。
様々なクエリのセマンティクスを柔軟にエンコードできる情報埋め込みを学習するための,新しい多モード確率的合成法(MPC)を提案する。
論文 参考訳(メタデータ) (2022-04-12T14:45:37Z) - Automatic Image Content Extraction: Operationalizing Machine Learning in
Humanistic Photographic Studies of Large Visual Archives [81.88384269259706]
本稿では,機械学習による大規模画像アーカイブの検索と解析のための自動画像コンテンツ抽出フレームワークを提案する。
提案する枠組みは、人文科学と社会科学のいくつかの分野に適用できる。
論文 参考訳(メタデータ) (2022-04-05T12:19:24Z) - Object Retrieval and Localization in Large Art Collections using Deep
Multi-Style Feature Fusion and Iterative Voting [10.807131260367298]
本稿では,特定のモチーフやオブジェクトを含む画像領域を検索するアルゴリズムを提案する。
GPUによる近似近傍探索による領域ベースの投票では、広範囲なデータセット内の小さなモチーフを数秒で見つけ、ローカライズすることが可能です。
論文 参考訳(メタデータ) (2021-07-14T18:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。