論文の概要: Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints
- arxiv url: http://arxiv.org/abs/2603.11147v1
- Date: Wed, 11 Mar 2026 17:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.546875
- Title: Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints
- Title(参考訳): 資源・規制制約下での博物館映像に対するカタログ接地マルチモーダル属性
- Authors: Minsak Nanang, Adrian Hilton, Armin Mustafa,
- Abstract要約: オープンでローカルにデプロイ可能なビデオ言語モデルを用いて,博物館のAVコンテンツに対するカタログ付きマルチモーダル属性を提案する。
絵画カタログへの初期の展開は、このフレームワークがリソースの制約やデータの主権、新たな規制を尊重しながら、AVアーカイブの発見性を改善することを示唆している。
- 参考スコア(独自算出の注目度): 23.69662034253901
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audiovisual (AV) archives in museums and galleries are growing rapidly, but much of this material remains effectively locked away because it lacks consistent, searchable metadata. Existing method for archiving requires extensive manual effort. We address this by automating the most labour intensive part of the workflow: catalogue style metadata curation for in gallery video, grounded in an existing collection database. Concretely, we propose catalogue-grounded multimodal attribution for museum AV content using an open, locally deployable video language model. We design a multi pass pipeline that (i) summarises artworks in a video, (ii) generates catalogue style descriptions and genre labels, and (iii) attempts to attribute title and artist via conservative similarity matching to the structured catalogue. Early deployments on a painting catalogue suggest that this framework can improve AV archive discoverability while respecting resource constraints, data sovereignty, and emerging regulation, offering a transferable template for application-driven machine learning in other high-stakes domains.
- Abstract(参考訳): 美術館やギャラリーのオーディオヴィジュアル(AV)アーカイブは急速に成長しているが、この素材の多くは、一貫性のある検索可能なメタデータが欠如しているため、事実上閉鎖されている。
既存のアーカイブの方法には、広範囲な手作業が必要である。
既存のコレクションデータベースを基盤としたギャラリービデオのカタログスタイルメタデータキュレーションという,ワークフローの最も集中的な部分を自動化することで,この問題に対処する。
具体的には、オープンでローカルにデプロイ可能なビデオ言語モデルを用いて、博物館のAVコンテンツに対するカタログ付きマルチモーダル属性を提案する。
我々はマルチパスパイプラインを設計する
(i)映像中のアートワークを要約する
(二)カタログスタイルの記述及びジャンルラベルを生成し、
(三) 構成されたカタログと一致する保守的な類似性により、タイトルとアーティストの属性付けを試みること。
ペイントカタログへの初期のデプロイは、このフレームワークがリソースの制約やデータ主権、新たな規制を尊重しながら、AVアーカイブの発見性を改善することを示唆している。
関連論文リスト
- From Show Programmes to Data: Designing a Workflow to Make Performing Arts Ephemera Accessible Through Language Models [0.3331620034375478]
我々は、視覚言語モデルが生来のデジタルおよびデジタル化されたプログラムを正確に解析し、転写する方法を示す。
我々は、形式と意味の両方の報酬で強化学習を用いて推論モデル(POntAvignon)を訓練する。
このアプローチはRDFトリプルの自動生成を可能にし、既存の知識グラフとのアライメントをサポートする。
論文 参考訳(メタデータ) (2025-12-08T11:27:10Z) - A Reproducible Workflow for Scraping, Structuring, and Segmenting Legacy Archaeological Artifact Images [0.0]
考古学データサービス(ADS)による下部中石器時代の手軸と両面の収集に焦点を当てたケーススタディ
これに対処するため、ADS Terms of Useと倫理的スクラップガイドラインを尊重しながら、すべてのレコードページを検索し、メタデータを抽出し、利用可能な画像をダウンロードするWebスクレイピングスクリプトが開発された。
オリジナルのイメージは再配布されておらず、マスク、アウトライン、アノテーションなどの派生製品のみが共有されている。
論文 参考訳(メタデータ) (2025-11-27T14:29:05Z) - WikiVideo: Article Generation from Multiple Videos [82.00241010200368]
実世界の出来事に関する複数のビデオからウィキペディア風の記事を作成する作業を紹介する。
このギャップを埋めるために、私たちはWikiVideoを紹介します。
複数のビデオから記事を作成するためのインタラクティブな手法である共同記事生成(CAG)を提案する。
論文 参考訳(メタデータ) (2025-04-01T16:22:15Z) - An archaeological Catalog Collection Method Based on Large Vision-Language Models [9.177297031425859]
アーティファクト画像、形態的記述、発掘情報などの重要な要素を含む考古学的カタログは、アーティファクトの進化や文化遺産を研究する上で不可欠である。
既存のLarge Vision-Language Modelとその派生データ収集手法は、正確な画像検出とモーダルマッチングにおいて課題に直面している。
本稿では,文書のローカライゼーション,ブロック理解,ブロックマッチングという3つのモジュールからなるアプローチを踏襲する大規模視覚言語モデルに基づく新しい考古学的カタログ収集手法を提案する。
論文 参考訳(メタデータ) (2024-12-28T09:10:41Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections [6.723689308768857]
EUFCC340Kデータセットは、AAT(Art & Architecture Thesaurus)に基づいた階層構造に従って、材料、オブジェクトタイプ、ディシプリエンス、主題という、複数の面にまたがって構成されている。
2つの異なるテストシナリオにおけるモデルロバスト性および一般化能力の評価実験は、マルチラベル分類ツールの改善におけるデータセットの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-04T14:57:56Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - On-Device Document Classification using multimodal features [3.180188886143297]
単一のモダリティは分類に不十分であることを示し、デバイス上で文書を分類するための新しいパイプラインを示す。
我々は,光学文字認識(OCR)のためのオープンソースライブラリと,パイプラインに新たなモデルアーキテクチャを統合する。
この分類モデルを標準のマルチモーダルデータセットfood-101でベンチマークし、30%のモデル圧縮で以前の技術と競合する結果を示す。
論文 参考訳(メタデータ) (2021-01-06T05:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。