論文の概要: Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents
- arxiv url: http://arxiv.org/abs/2603.00147v1
- Date: Tue, 24 Feb 2026 21:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.056748
- Title: Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents
- Title(参考訳): センチュリー時代の技術文書のセグメンテーション・ラベリングにおけるGenAIの活用
- Authors: Carlos Monroy, Benjamin Navarro,
- Abstract要約: 我々は,XVI と XVII 世紀における造船に関する論文のセグメンテーションとラベル付けの作業について報告する。
予備的な結果は、これらの技術が価値のない史料のキュレーションと検索を改善する可能性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image segmentation and image recognition are well established computational techniques in the broader discipline of image processing. Segmentation allows to locate areas in an image, while recognition identifies specific objects within an image. These techniques have shown remarkable accuracy with modern images, mainly because the amount of training data is vast. Achieving similar accuracy in digitized images of centuries-old documents is more challenging. This difficulty is due to two main reasons: first, the lack of sufficient training data, and second, because the degree of specialization in a given domain. Despite these limitations, the ability to segment and recognize objects in these collections is important for automating the curation, cataloging, and dissemination of knowledge, making the contents of priceless collections accessible to scholars and the general public. In this paper, we report on our ongoing work in segmenting and labeling images pertaining to shipbuilding treatises from the XVI and XVII centuries, a historical period known as the Age of Exploration. To this end, we leverage SAM2 for image segmentation; Florence2 and ChatGPT for labeling; and a specialized ontology ontoShip and glossary glosShip of nautical architecture for enhancing the labeling process. Preliminary results demonstrate the potential of marrying these technologies for improving curation and retrieval of priceless historical documents. We also discuss the challenges and limitations encountered in this approach and ideas on how to overcome them in the future.
- Abstract(参考訳): 画像分割と画像認識は、画像処理の幅広い分野において確立された計算技術である。
セグメンテーションは画像内の領域を識別し、認識は画像内の特定のオブジェクトを識別する。
これらの手法は、トレーニングデータの量が大きいことを中心に、現代の画像で顕著な精度を示している。
数世紀前の文書のデジタル化画像で、同様の精度を達成することは、より難しい。
この難しさは2つの主な理由によるもので、ひとつは十分なトレーニングデータがないこと、もうひとつは、特定のドメインの専門化の度合いのためである。
これらの制限にもかかわらず、これらのコレクションのオブジェクトを分割して認識する能力は、知識のキュレーション、カタログ化、普及を自動化し、学者や一般大衆に価値のないコレクションの内容を提供するために重要である。
本稿では,XVI および XVII 世紀における造船条約に関する画像のセグメンテーションとラベル付けに関する現在進行中の作業について報告する。
この目的のために、画像セグメンテーションにSAM2、ラベリングにFlorence2とChatGPT、海洋アーキテクチャに特化されたオントロジーと、ラベリングプロセスの強化のためにGlossary glosShipを利用する。
予備的な結果は、これらの技術が価値のない史料のキュレーションと検索を改善する可能性を示している。
また、このアプローチで遭遇した課題や制限や、それらを将来的に克服する方法についてのアイデアについても論じる。
関連論文リスト
- SaccadeDet: A Novel Dual-Stage Architecture for Rapid and Accurate Detection in Gigapixel Images [50.742420049839474]
SaccadeDetは、人間の目の動きにインスパイアされた、ギガピクセルレベルの物体検出のための革新的なアーキテクチャである。
PANDAデータセットを用いて評価した本手法は,最先端手法の8倍の高速化を実現する。
また、全スライドイメージングへの応用を通じて、ギガピクセルレベルの病理解析に有意な可能性を示す。
論文 参考訳(メタデータ) (2024-07-25T11:22:54Z) - Semi-Supervised Semantic Segmentation Based on Pseudo-Labels: A Survey [49.47197748663787]
本総説は, 半教師付きセマンティックセグメンテーション分野における擬似ラベル手法に関する最新の研究成果について, 包括的かつ組織的に概観することを目的としている。
さらに,医用およびリモートセンシング画像のセグメンテーションにおける擬似ラベル技術の適用について検討する。
論文 参考訳(メタデータ) (2024-03-04T10:18:38Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Is Medieval Distant Viewing Possible? : Extending and Enriching Annotation of Legacy Image Collections using Visual Analytics [3.89394670917253]
本稿では,相反するメタデータと重複するメタデータを示す2つの注釈付き中世の写本画像について述べる。
統合データセットの"ブリッジ"として機能する,より均一なラベルセットを作ることを目標としています。
ビジュアルインターフェースは、メタデータの総合計を超えるデータ間の関係について、専門家に概要を提供する。
論文 参考訳(メタデータ) (2022-08-20T10:59:33Z) - Multiple Instance Learning for Digital Pathology: A Review on the
State-of-the-Art, Limitations & Future Potential [0.29008108937701327]
デジタルスライド画像には膨大な情報が含まれている。
ディープニューラルネットワークは、デジタル病理学の分野における様々なタスクに対して高いポテンシャルを示す。
ディープラーニングアルゴリズムは、効果的なトレーニングを可能にするために、大量の画像データに加えて、(手動)アノテーションを必要とする。
複数のインスタンス学習は、完全な注釈付きデータなしでシナリオでディープニューラルネットワークを学習するための強力なツールである。
論文 参考訳(メタデータ) (2022-06-09T11:27:26Z) - The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels [90.88501867321573]
我々は、専門家のアノテーションを使わずに、きめ細かい画像認識という新しい問題を考える。
非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-05T17:58:37Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Hierarchical Semantic Segmentation using Psychometric Learning [17.417302703539367]
我々は,心理測定テストに基づいて,専門家からセグメンテーションアノテーションを収集する手法を開発した。
本手法は, 心理測定試験, アクティブクエリ選択, クエリ強化, ディープメトリック学習モデルから構成される。
本稿では, 合成画像, 空中画像, 組織像について評価し, 提案手法の有用性を示す。
論文 参考訳(メタデータ) (2021-07-07T13:38:33Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - A Survey on Deep Learning Methods for Semantic Image Segmentation in
Real-Time [0.0]
ロボット工学や自動運転車など、多くの分野において、セマンティックイメージのセグメンテーションが不可欠である。
診断と治療の成功は、検討中のデータの極めて正確な理解に依存している。
近年のディープラーニングの進歩は、この問題に効果的かつ高精度に対処するためのツールを多数提供してきた。
論文 参考訳(メタデータ) (2020-09-27T20:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。