論文の概要: Explainable Search and Discovery of Visual Cultural Heritage Collections with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2411.04663v1
- Date: Thu, 07 Nov 2024 12:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:35.975581
- Title: Explainable Search and Discovery of Visual Cultural Heritage Collections with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルを用いた視覚文化遺産コレクションの探索と発見
- Authors: Taylor Arnold, Lauren Tilton,
- Abstract要約: 本稿では,最先端のマルチモーダル言語モデル (LLM) を用いて,ビジュアルコレクションのためのオープンで説明可能な検索・発見インターフェースを実現する手法を提案する。
我々は,視覚的な埋め込みをベースとした手法の共通の落とし穴を避けるために,新しいクラスタリングとレコメンデーションシステムを構築する方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Many cultural institutions have made large digitized visual collections available online, often under permissible re-use licences. Creating interfaces for exploring and searching these collections is difficult, particularly in the absence of granular metadata. In this paper, we introduce a method for using state-of-the-art multimodal large language models (LLMs) to enable an open-ended, explainable search and discovery interface for visual collections. We show how our approach can create novel clustering and recommendation systems that avoid common pitfalls of methods based directly on visual embeddings. Of particular interest is the ability to offer concrete textual explanations of each recommendation without the need to preselect the features of interest. Together, these features can create a digital interface that is more open-ended and flexible while also being better suited to addressing privacy and ethical concerns. Through a case study using a collection of documentary photographs, we provide several metrics showing the efficacy and possibilities of our approach.
- Abstract(参考訳): 多くの文化機関が大規模なデジタル化された視覚コレクションをオンラインで公開しており、しばしば許可された再使用ライセンスの下で利用できる。
これらのコレクションを探索し、検索するためのインターフェースを作成することは、特に粒度のメタデータが欠如している場合、難しい。
本稿では,現在最先端のマルチモーダル言語モデル(LLM)を用いて,ビジュアルコレクションのためのオープンで説明可能な検索・発見インターフェースを実現する手法を提案する。
我々は,視覚的な埋め込みをベースとした手法の共通の落とし穴を避けるために,新しいクラスタリングとレコメンデーションシステムを構築する方法を示す。
特に興味があるのは、興味のある特徴を事前に選択することなく、各レコメンデーションの具体的なテキストによる説明を提供する能力である。
これらの機能は、よりオープンでフレキシブルなデジタルインターフェースを作成すると同時に、プライバシや倫理的懸念に対処するのに適している。
ドキュメンタリー写真集を用いたケーススタディを通じて,本手法の有効性と可能性を示す指標をいくつか提示する。
関連論文リスト
- MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。
画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。
アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文 参考訳(メタデータ) (2024-09-09T08:06:50Z) - Leveraging Large Language Models for Multimodal Search [0.6249768559720121]
本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。
また,Large Language Models (LLM) を統合した新たな検索インタフェースを提案する。
論文 参考訳(メタデータ) (2024-04-24T10:30:42Z) - Multi-Modal Proxy Learning Towards Personalized Visual Multiple Clustering [8.447067012487866]
マルチMaPは,マルチモーダルなプロキシ学習プロセスを用いた新しい手法である。
キーワードを通じてユーザの関心をキャプチャすると同時に、関連するクラスタリングの特定を容易にする。
実験の結果,Multi-MaPは全ベンチマークのマルチクラスタ・ビジョンタスクにおいて常に最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-24T05:20:42Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Open Visual Knowledge Extraction via Relation-Oriented Multimodality
Model Prompting [89.95541601837719]
オープンビジュアル知識抽出の新しいパラダイムを初めて探求する。
OpenVikは、リレーショナル知識を含む可能性のあるリージョンを検出するオープンリレーショナルリージョン検出器で構成されている。
検出された関心領域で大規模なマルチモーダリティモデルを促すことにより、書式のない知識を生成する視覚的知識生成装置。
論文 参考訳(メタデータ) (2023-10-28T20:09:29Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Object Retrieval and Localization in Large Art Collections using Deep
Multi-Style Feature Fusion and Iterative Voting [10.807131260367298]
本稿では,特定のモチーフやオブジェクトを含む画像領域を検索するアルゴリズムを提案する。
GPUによる近似近傍探索による領域ベースの投票では、広範囲なデータセット内の小さなモチーフを数秒で見つけ、ローカライズすることが可能です。
論文 参考訳(メタデータ) (2021-07-14T18:40:49Z) - A unified framework based on graph consensus term for multi-view
learning [5.168659132277719]
本稿では,既存のグラフ埋め込み作業の多くを統一された公式に活用することを目的とした,新しい多視点学習フレームワークを提案する。
本手法は,グラフ埋め込み手法の多様性を維持するために,各ビューのグラフ構造を独立に探索する。
この目的のために、異なる視点の多様性と相補的な情報を同時に検討することができる。
論文 参考訳(メタデータ) (2021-05-25T09:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。