Fugu-MT 論文翻訳(概要): Prompt me a Dataset: An investigation of text-image prompting for historical image dataset creation using foundation models

論文の概要: Prompt me a Dataset: An investigation of text-image prompting for historical image dataset creation using foundation models

arxiv url: http://arxiv.org/abs/2309.01674v1
Date: Mon, 4 Sep 2023 15:37:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 18:01:58.915682
Title: Prompt me a Dataset: An investigation of text-image prompting for historical image dataset creation using foundation models
Title（参考訳）: Prompt me a Dataset: 基礎モデルを用いた歴史的画像データセット作成を促すテキストイメージの検討
Authors: Hassan El-Hajj and Matteo Valleriani
Abstract要約: 基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
参考スコア（独自算出の注目度）: 0.9065034043031668
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present a pipeline for image extraction from historical documents using foundation models, and evaluate text-image prompts and their effectiveness on humanities datasets of varying levels of complexity. The motivation for this approach stems from the high interest of historians in visual elements printed alongside historical texts on the one hand, and from the relative lack of well-annotated datasets within the humanities when compared to other domains. We propose a sequential approach that relies on GroundDINO and Meta's Segment-Anything-Model (SAM) to retrieve a significant portion of visual data from historical documents that can then be used for downstream development tasks and dataset creation, as well as evaluate the effect of different linguistic prompts on the resulting detections.
Abstract（参考訳）: 本稿では,基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案し,テキスト画像のプロンプトとその複雑さの異なる人文データセット上での有効性を評価する。このアプローチの動機は、歴史的なテキストとともに印刷された視覚的要素の歴史家の関心の高さと、他の領域と比較して人文科学における注釈付きデータセットの相対的欠如にある。そこで本研究では,FundDINOとMetaのSegment-Anything-Model(SAM)を利用して,下流開発タスクやデータセット作成に使用可能な履歴資料から,視覚的データのかなりの部分を抽出し,異なる言語的プロンプトが検出に与える影響を評価する。

関連論文リスト

Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文参考訳（メタデータ） (2024-07-20T17:14:31Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
Pattern Spotting and Image Retrieval in Historical Documents using Deep Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文参考訳（メタデータ） (2022-08-04T01:39:37Z)
A Generic Image Retrieval Method for Date Estimation of Historical Document Collections [0.4588028371034407]
本稿では,異種コレクションの前方でよく一般化する検索手法に基づく頑健な日付推定システムを提案する。我々は、スムーズなnDCGというランキング損失関数を用いて、各問題の文書の順序を学習する畳み込みニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2022-04-08T12:30:39Z)
Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文参考訳（メタデータ） (2022-03-28T23:35:45Z)
A Survey of Historical Document Image Datasets [2.8707038627097226]
本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。手書きの写本や初期の版画などの史料に焦点が当てられている。歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
論文参考訳（メタデータ） (2022-03-16T09:56:48Z)
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文参考訳（メタデータ） (2021-11-24T19:00:05Z)
Including Keyword Position in Image-based Models for Act Segmentation of Historical Registers [2.064923532131528]
我々は、歴史的レジスターを、アクトのような構造的で意味のある単位に分割するために、視覚情報とテキスト情報の両方を使用することに焦点をあてる。ある行為は、人口統計情報(洗礼、婚姻または死)や王室の決定(寄付または恩赦)などの貴重な知識を含む文書記録である。
論文参考訳（メタデータ） (2021-09-17T11:38:34Z)
docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。 IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文参考訳（メタデータ） (2020-12-15T10:19:18Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)
Combining Visual and Textual Features for Semantic Segmentation of Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文参考訳（メタデータ） (2020-02-14T17:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。