論文の概要: Multimodal Search on Iconclass using Vision-Language Pre-Trained Models
- arxiv url: http://arxiv.org/abs/2306.16529v1
- Date: Fri, 23 Jun 2023 11:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-02 13:06:43.053439
- Title: Multimodal Search on Iconclass using Vision-Language Pre-Trained Models
- Title(参考訳): 視覚言語事前学習モデルを用いたアイコンクラスのマルチモーダル検索
- Authors: Cristian Santini, Etienne Posthumus, Mary Ann Tan, Oleksandra Bruns,
Tabea Tietz, Harald Sack
- Abstract要約: 本稿では,最も広く使用されている図形分類システムであるIconclassに対する新しい検索エンジンの実装について述べる。
このシステムの新規性は、事前訓練された視覚言語モデル、すなわちCLIPを使用して、ビジュアルクエリやテキストクエリを使用して、Iconclassの概念を検索し、探索することである。
- 参考スコア(独自算出の注目度): 18.028251241529578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Terminology sources, such as controlled vocabularies, thesauri and
classification systems, play a key role in digitizing cultural heritage.
However, Information Retrieval (IR) systems that allow to query and explore
these lexical resources often lack an adequate representation of the semantics
behind the user's search, which can be conveyed through multiple expression
modalities (e.g., images, keywords or textual descriptions). This paper
presents the implementation of a new search engine for one of the most widely
used iconography classification system, Iconclass. The novelty of this system
is the use of a pre-trained vision-language model, namely CLIP, to retrieve and
explore Iconclass concepts using visual or textual queries.
- Abstract(参考訳): コントロールされた語彙、テザウリ、分類体系などの用語源は、文化遺産のデジタル化に重要な役割を果たしている。
しかし、これらの語彙資源を検索し探索できる情報検索(ir)システムは、ユーザの検索の背後にある意味論の適切な表現が欠如しており、複数の表現モダリティ(画像、キーワード、テキスト記述など)を通じて伝達される。
本稿では,最も広く使用されている図形分類システムであるIconclassに対する新しい検索エンジンの実装について述べる。
このシステムの目新しさは、事前訓練された視覚言語モデル、すなわちクリップを使用して、ビジュアルまたはテキストのクエリを使用してアイコンクラスの概念を検索し、探索することである。
関連論文リスト
- OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。