論文の概要: Constructing Image-Text Pair Dataset from Books
- arxiv url: http://arxiv.org/abs/2310.01936v1
- Date: Tue, 3 Oct 2023 10:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 14:48:40.519741
- Title: Constructing Image-Text Pair Dataset from Books
- Title(参考訳): 書籍からの画像テキストペアデータセットの構築
- Authors: Yamato Okamoto, Haruto Toyonaga, Yoshihisa Ijiri, Hirokatsu Kataoka
- Abstract要約: 本稿では,デジタルアーカイブを機械学習に活用するための新しい手法を提案する。
実験では,古いフォトブックにパイプラインを適用し,画像とテキストのペアのデータセットを構築する。
- 参考スコア(独自算出の注目度): 10.92677060085447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital archiving is becoming widespread owing to its effectiveness in
protecting valuable books and providing knowledge to many people
electronically. In this paper, we propose a novel approach to leverage digital
archives for machine learning. If we can fully utilize such digitized data,
machine learning has the potential to uncover unknown insights and ultimately
acquire knowledge autonomously, just like humans read books. As a first step,
we design a dataset construction pipeline comprising an optical character
reader (OCR), an object detector, and a layout analyzer for the autonomous
extraction of image-text pairs. In our experiments, we apply our pipeline on
old photo books to construct an image-text pair dataset, showing its
effectiveness in image-text retrieval and insight extraction.
- Abstract(参考訳): デジタルアーカイブは、貴重な書籍を保護し、多くの人に電子的に知識を提供する効果によって普及している。
本稿では,デジタルアーカイブを機械学習に活用するための新しい手法を提案する。
このようなデジタル化されたデータを十分に活用できれば、機械学習は未知の洞察を発見し、最終的に人間が本を読むように、自律的に知識を得る可能性がある。
第1のステップとして,光文字リーダ(ocr)と物体検出器,および画像テキストペアの自律抽出のためのレイアウトアナライザからなるデータセット構築パイプラインを設計する。
実験では,古いフォトブックにパイプラインを適用し,画像-テキストペアデータセットを構築し,画像-テキスト検索と洞察抽出にその効果を示す。
関連論文リスト
- Transductive Learning for Near-Duplicate Image Detection in Scanned Photo Collections [0.0]
本稿では,実世界のユースケースシナリオにおける近距離画像検出技術の比較研究について述べる。
本稿では、畳み込みニューラルネットワーク(CNN)や視覚変換器(ViT)といった最先端のディープラーニングアーキテクチャを活用するトランスダクティブ学習手法を提案する。
提案手法は,UKBenchと社内のプライベートデータセットにおいて,ほぼ重複画像検出のタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-25T09:56:15Z) - Visual Navigation of Digital Libraries: Retrieval and Classification of Images in the National Library of Norway's Digitised Book Collection [0.3277163122167433]
本稿では,1900年以前のノルウェー国立図書館における画像探索のための概念実証画像検索アプリケーションについて紹介する。
画像検索と分類のために、視覚変換器(ViT)、コントラスト言語画像事前学習(CLIP)、言語画像事前学習(SigLIP)のSigmoid損失を比較した。
論文 参考訳(メタデータ) (2024-10-19T04:20:23Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review [0.0]
本稿では、入力画像のテキスト提案、キャプション、記述をアノテータに提供するためのAI支援型ディープラーニング画像アノテーションシステムについて検討する。
各種データセットをレビューし,AI補助アノテーションシステムのトレーニングと評価にどのように貢献するかを検討する。
有望な可能性にもかかわらず、テキスト出力機能を備えたAIアシスト画像アノテーションに関する公開作業は限られている。
論文 参考訳(メタデータ) (2024-06-28T22:56:17Z) - Enhancing Textbooks with Visuals from the Web for Improved Learning [50.01434477801967]
本稿では,Webからの画像を用いた教科書を自動的に強化する視覚言語モデルの有効性について検討する。
数学、科学、社会科学、ビジネス分野における電子教科書のデータセットを収集します。
次に,テキスト画像マッチングタスクを設定し,テキスト画像の検索とテキストへの適切な割り当てを行う。
論文 参考訳(メタデータ) (2023-04-18T12:16:39Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Automatic Image Content Extraction: Operationalizing Machine Learning in
Humanistic Photographic Studies of Large Visual Archives [81.88384269259706]
本稿では,機械学習による大規模画像アーカイブの検索と解析のための自動画像コンテンツ抽出フレームワークを提案する。
提案する枠組みは、人文科学と社会科学のいくつかの分野に適用できる。
論文 参考訳(メタデータ) (2022-04-05T12:19:24Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。