論文の概要: Semi-Supervised Image-Based Narrative Extraction: A Case Study with Historical Photographic Records
- arxiv url: http://arxiv.org/abs/2501.09884v1
- Date: Thu, 16 Jan 2025 23:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:05.507118
- Title: Semi-Supervised Image-Based Narrative Extraction: A Case Study with Historical Photographic Records
- Title(参考訳): 半監督画像に基づく物語抽出 : 歴史的写真記録を用いた事例研究
- Authors: Fausto German, Brian Keith, Mauricio Matus, Diego Urrutia, Claudio Meneses,
- Abstract要約: 本稿では,歴史写真から物語を抽出するための半教師付きアプローチとして,物語地図アルゴリズムの適応を用いた手法を提案する。
この手法は、ロベルト・ゲルストマン(Robert Gerstmann)が捉えた1928年のサカンバヤ遠征の写真集であるROGERデータセットに適用される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents a semi-supervised approach to extracting narratives from historical photographic records using an adaptation of the narrative maps algorithm. We extend the original unsupervised text-based method to work with image data, leveraging deep learning techniques for visual feature extraction and similarity computation. Our method is applied to the ROGER dataset, a collection of photographs from the 1928 Sacambaya Expedition in Bolivia captured by Robert Gerstmann. We compare our algorithmically extracted visual narratives with expert-curated timelines of varying lengths (5 to 30 images) to evaluate the effectiveness of our approach. In particular, we use the Dynamic Time Warping (DTW) algorithm to match the extracted narratives with the expert-curated baseline. In addition, we asked an expert on the topic to qualitatively evaluate a representative example of the resulting narratives. Our findings show that the narrative maps approach generally outperforms random sampling for longer timelines (10+ images, p < 0.05), with expert evaluation confirming the historical accuracy and coherence of the extracted narratives. This research contributes to the field of computational analysis of visual cultural heritage, offering new tools for historians, archivists, and digital humanities scholars to explore and understand large-scale image collections. The method's ability to generate meaningful narratives from visual data opens up new possibilities for the study and interpretation of historical events through photographic evidence.
- Abstract(参考訳): 本稿では,物語地図アルゴリズムを応用した歴史写真記録から物語を抽出するための半教師付きアプローチを提案する。
視覚的特徴抽出と類似性計算に深層学習技術を活用することにより、教師なしのテキストベースで画像データを扱うように拡張する。
この手法は、ロベルト・ゲルストマン(Robert Gerstmann)が捉えた1928年のサカンバヤ遠征の写真集であるROGERデータセットに適用される。
提案手法の有効性を評価するため,アルゴリズムで抽出した視覚的物語と,異なる長さ(5~30画像)の専門的時系列を比較した。
特に,抽出したナラティブと専門家による基準値とを一致させるために,動的時間ウォーピング(DTW)アルゴリズムを用いる。
さらに,この話題について専門家に質問し,得られた物語の代表的な例を質的に評価した。
以上の結果から,より長いタイムライン(10以上の画像,p<0.05)において,物語マップのアプローチはランダムサンプリングよりも優れており,抽出した物語の歴史的精度と一貫性が評価されている。
この研究は、視覚文化遺産の計算分析の分野に貢献し、歴史学者、考古学者、デジタル人文科学研究者が大規模な画像コレクションを探索し理解するための新しいツールを提供する。
視覚データから有意義な物語を生成する能力は、写真的証拠を通じて歴史的出来事の研究と解釈の新たな可能性を開く。
関連論文リスト
- Knowledge-Guided Prompt Learning for Deepfake Facial Image Detection [54.26588902144298]
ディープフェイク顔画像検出のための知識誘導型プロンプト学習法を提案する。
具体的には、学習可能なプロンプトの最適化を導くための専門家知識として、大規模言語モデルから偽造関連プロンプトを抽出する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-01-01T02:18:18Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - Blind Dates: Examining the Expression of Temporality in Historical
Photographs [57.07335632641355]
マルチモーダル言語とビジョンモデルであるCLIPのオープンソース実装であるOpenCLIPを用いて、画像の日付を調査する。
我々は1950年から1999年までの39,866枚のグレースケールの歴史的プレス写真を含むtextitDe Boer Scene Detectionデータセットを使用している。
解析の結果、バス、車、猫、犬、そして人々が写っている画像はより正確に年代付けされており、時間的マーカーの存在が示唆されている。
論文 参考訳(メタデータ) (2023-10-10T13:51:24Z) - Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models [0.9065034043031668]
基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2023-09-04T15:37:03Z) - Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文 参考訳(メタデータ) (2022-08-04T01:39:37Z) - A Decade Survey of Content Based Image Retrieval using Deep Learning [13.778851745408133]
本稿では,コンテンツベース画像検索における過去10年間のディープラーニングベース開発に関する包括的調査について述べる。
クエリ画像の代表的な特徴とデータセット画像との類似性は、検索のために画像のランク付けに使用される。
ディープラーニングは、手作業で設計した機能工学の、10年前から支配的な代替手段として現れてきた。
論文 参考訳(メタデータ) (2020-11-23T02:12:30Z) - Narrative Maps: An Algorithmic Approach to Represent and Extract
Information Narratives [6.85316573653194]
本稿では、物語表現の理論と現代のオンラインシステムのデータを組み合わせる。
物語地図の表現は、物語の中の出来事と物語を、地図上のランドマークとルートのシリーズとして描いている。
我々の発見は、情報アナリスト、計算ジャーナリスト、誤情報研究者に影響を及ぼす。
論文 参考訳(メタデータ) (2020-09-09T18:30:44Z) - From A Glance to "Gotcha": Interactive Facial Image Retrieval with
Progressive Relevance Feedback [72.29919762941029]
本稿では,目撃者から徐々にフィードバックを得て顔画像を取得するためのエンドツーエンドフレームワークを提案する。
追加のアノテーションを必要とせずに、私たちのモデルは少しのレスポンスの努力を犠牲にして適用できます。
論文 参考訳(メタデータ) (2020-07-30T18:46:25Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。