論文の概要: Studying Illustrations in Manuscripts: An Efficient Deep-Learning Approach
- arxiv url: http://arxiv.org/abs/2601.05269v2
- Date: Mon, 12 Jan 2026 11:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.541293
- Title: Studying Illustrations in Manuscripts: An Efficient Deep-Learning Approach
- Title(参考訳): マニュアルにおけるイラストレーションの研究--効率的な深層学習アプローチ
- Authors: Yoav Evron, Michal Bar-Asher Siegal, Michael Fire,
- Abstract要約: 我々は、照明された原稿の大規模視覚分析のための汎用的でスケーラブルなAIベースのパイプラインを提案する。
このフレームワークは、ページレベルのイラストレーション検出、イラスト抽出、マルチモーダル記述のための最新のディープラーニングモデルを統合する。
我々は、バチカン図書館やボルソ・デステ聖書などのリッチに照らされた写本を含む、大規模な異種コレクションへのこのアプローチの適用性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent Artificial Intelligence (AI) revolution has opened transformative possibilities for the humanities, particularly in unlocking the visual-artistic content embedded in historical illuminated manuscripts. While digital archives now offer unprecedented access to these materials, the ability to systematically locate, extract, and analyze illustrations at scale remains a major challenge. We present a general and scalable AI-based pipeline for large-scale visual analysis of illuminated manuscripts. The framework integrates modern deep-learning models for page-level illustration detection, illustration extraction, and multimodal description, enabling scholars to search, cluster, and study visual materials and artistic trends across entire corpora. We demonstrate the applicability of this approach on large heterogeneous collections, including the Vatican Library and richly illuminated manuscripts such as the Bible of Borso d'Este. The system reveals meaningful visual patterns and cross-manuscript relationships by embedding illustrations into a shared representation space and analyzing their similarity structure (see figure 4). By harnessing recent advances in computer vision and vision-language models, our framework enables new forms of large-scale visual scholarship in historical studies, art history, and cultural heritage making it possible to explore iconography, stylistic trends, and cultural connections in ways that were previously impractical.
- Abstract(参考訳): 近年の人工知能(AI)革命は、人文科学、特に歴史に照らされた写本に埋め込まれた視覚的芸術的コンテンツを解き放つための変革的可能性を開いた。
現在、デジタルアーカイブはこれらの資料への前例のないアクセスを提供しているが、大規模なイラストを体系的に見つけ、抽出し、分析する能力は大きな課題である。
我々は、照明された原稿の大規模視覚分析のための汎用的でスケーラブルなAIベースのパイプラインを提案する。
このフレームワークは、ページレベルのイラストレーション検出、イラスト抽出、マルチモーダル記述のための現代のディープラーニングモデルを統合し、研究者は、コーパス全体にわたって視覚的な素材や芸術的傾向を探索、クラスタリング、研究することができる。
我々は、バチカン図書館やボルソ・デステ聖書などのリッチに照らされた写本を含む、大規模な異種コレクションへのこのアプローチの適用性を実証する。
このシステムは、図形を共有表現空間に埋め込み、それらの類似構造を分析することによって、意味のある視覚パターンとクロスマニュアルの関係を明らかにする(図4参照)。
近年のコンピュータビジョンと視覚言語モデルの進歩を利用して、歴史研究、美術史、文化遺産における大規模な視覚奨学金の新たな形態を可能にし、それまでの非現実的な方法で図像学、様式的傾向、文化的なつながりを探求することができる。
関連論文リスト
- From Show Programmes to Data: Designing a Workflow to Make Performing Arts Ephemera Accessible Through Language Models [0.3331620034375478]
我々は、視覚言語モデルが生来のデジタルおよびデジタル化されたプログラムを正確に解析し、転写する方法を示す。
我々は、形式と意味の両方の報酬で強化学習を用いて推論モデル(POntAvignon)を訓練する。
このアプローチはRDFトリプルの自動生成を可能にし、既存の知識グラフとのアライメントをサポートする。
論文 参考訳(メタデータ) (2025-12-08T11:27:10Z) - Disc-Cover Complexity Trends in Music Illustrations from Sinatra to Swift [51.70874799858211]
アルバムカバーの視覚的複雑さについて検討し,75年間,11種類のポピュラー音楽ジャンルについて検討した。
我々の分析は、例外を除いて、ほとんどのジャンルでミニマリズムへの幅広いシフトを明らかにしている。
同時に、時間とともに変化するばらつきを観察し、多くのカバーは高いレベルの抽象化と複雑さを示し続けています。
論文 参考訳(メタデータ) (2025-10-01T15:01:25Z) - A Critical Assessment of Modern Generative Models' Ability to Replicate Artistic Styles [0.0]
本稿では,現代生成モデルのスタイル再現能力を批判的に評価する。
これらのモデルは,構造的整合性と構成的バランスを維持しつつ,従来の芸術様式をいかに効果的に再現するかを検討する。
この分析は、過去の芸術スタイルを模倣したAI生成作品の大規模なデータセットに基づいている。
論文 参考訳(メタデータ) (2025-02-21T07:00:06Z) - Diffusion-Based Visual Art Creation: A Survey and New Perspectives [51.522935314070416]
本調査は,拡散に基づく視覚芸術創造の新たな領域を探求し,その発展を芸術的,技術的両面から検討する。
本研究は,芸術的要件が技術的課題にどのように変換されるかを明らかにし,視覚芸術創造における拡散法の設計と応用を強調した。
我々は、AIシステムが芸術的知覚と創造性において人間の能力をエミュレートし、潜在的に増強するメカニズムに光を当てることを目指している。
論文 参考訳(メタデータ) (2024-08-22T04:49:50Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - Composition Vision-Language Understanding via Segment and Depth Anything Model [2.0836143651641033]
このライブラリは、DAM(Depth Anything Model)、SAM(Segment Anything Model)、GPT-4V(GPT-4V)の機能を相乗化する。
シンボリック・インスタンスレベルでのセグメンテーションと深度解析の融合により、我々のライブラリは言語モデルに対するニュアンスな入力を提供する。
本研究は,ニューラルシンボリック統合による視覚言語モデルの進展を示す。
論文 参考訳(メタデータ) (2024-06-07T16:28:06Z) - There Is a Digital Art History [1.0878040851637998]
我々はJohanna Drucker氏の質問を再考する。
我々は,「デジタル」美術史へのパラダイムシフトを示唆する2つの主要な側面に着目した分析を行った。
論文 参考訳(メタデータ) (2023-08-14T21:21:03Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Automatic Image Content Extraction: Operationalizing Machine Learning in
Humanistic Photographic Studies of Large Visual Archives [81.88384269259706]
本稿では,機械学習による大規模画像アーカイブの検索と解析のための自動画像コンテンツ抽出フレームワークを提案する。
提案する枠組みは、人文科学と社会科学のいくつかの分野に適用できる。
論文 参考訳(メタデータ) (2022-04-05T12:19:24Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。