論文の概要: Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models
- arxiv url: http://arxiv.org/abs/2309.01674v1
- Date: Mon, 4 Sep 2023 15:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 18:01:58.915682
- Title: Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models
- Title(参考訳): Prompt me a Dataset: 基礎モデルを用いた歴史的画像データセット作成を促すテキストイメージの検討
- Authors: Hassan El-Hajj and Matteo Valleriani
- Abstract要約: 基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
- 参考スコア(独自算出の注目度): 0.9065034043031668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a pipeline for image extraction from historical
documents using foundation models, and evaluate text-image prompts and their
effectiveness on humanities datasets of varying levels of complexity. The
motivation for this approach stems from the high interest of historians in
visual elements printed alongside historical texts on the one hand, and from
the relative lack of well-annotated datasets within the humanities when
compared to other domains. We propose a sequential approach that relies on
GroundDINO and Meta's Segment-Anything-Model (SAM) to retrieve a significant
portion of visual data from historical documents that can then be used for
downstream development tasks and dataset creation, as well as evaluate the
effect of different linguistic prompts on the resulting detections.
- Abstract(参考訳): 本稿では,基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案し,テキスト画像のプロンプトとその複雑さの異なる人文データセット上での有効性を評価する。
このアプローチの動機は、歴史的なテキストとともに印刷された視覚的要素の歴史家の関心の高さと、他の領域と比較して人文科学における注釈付きデータセットの相対的欠如にある。
そこで本研究では,FundDINOとMetaのSegment-Anything-Model(SAM)を利用して,下流開発タスクやデータセット作成に使用可能な履歴資料から,視覚的データのかなりの部分を抽出し,異なる言語的プロンプトが検出に与える影響を評価する。
関連論文リスト
- Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文 参考訳(メタデータ) (2022-08-04T01:39:37Z) - A Generic Image Retrieval Method for Date Estimation of Historical
Document Collections [0.4588028371034407]
本稿では,異種コレクションの前方でよく一般化する検索手法に基づく頑健な日付推定システムを提案する。
我々は、スムーズなnDCGというランキング損失関数を用いて、各問題の文書の順序を学習する畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-04-08T12:30:39Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - A Survey of Historical Document Image Datasets [2.8707038627097226]
本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。
手書きの写本や初期の版画などの史料に焦点が当てられている。
歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
論文 参考訳(メタデータ) (2022-03-16T09:56:48Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Including Keyword Position in Image-based Models for Act Segmentation of
Historical Registers [2.064923532131528]
我々は、歴史的レジスターを、アクトのような構造的で意味のある単位に分割するために、視覚情報とテキスト情報の両方を使用することに焦点をあてる。
ある行為は、人口統計情報(洗礼、婚姻または死)や王室の決定(寄付または恩赦)などの貴重な知識を含む文書記録である。
論文 参考訳(メタデータ) (2021-09-17T11:38:34Z) - docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。
さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。
IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文 参考訳(メタデータ) (2020-12-15T10:19:18Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。