論文の概要: An archaeological Catalog Collection Method Based on Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.20088v1
- Date: Sat, 28 Dec 2024 09:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:12.960337
- Title: An archaeological Catalog Collection Method Based on Large Vision-Language Models
- Title(参考訳): 大規模視線モデルに基づく考古学的カタログ収集手法
- Authors: Honglin Pang, Yi Chang, Tianjing Duan, Xi Yang,
- Abstract要約: アーティファクト画像、形態的記述、発掘情報などの重要な要素を含む考古学的カタログは、アーティファクトの進化や文化遺産を研究する上で不可欠である。
既存のLarge Vision-Language Modelとその派生データ収集手法は、正確な画像検出とモーダルマッチングにおいて課題に直面している。
本稿では,文書のローカライゼーション,ブロック理解,ブロックマッチングという3つのモジュールからなるアプローチを踏襲する大規模視覚言語モデルに基づく新しい考古学的カタログ収集手法を提案する。
- 参考スコア(独自算出の注目度): 9.177297031425859
- License:
- Abstract: Archaeological catalogs, containing key elements such as artifact images, morphological descriptions, and excavation information, are essential for studying artifact evolution and cultural inheritance. These data are widely scattered across publications, requiring automated collection methods. However, existing Large Vision-Language Models (VLMs) and their derivative data collection methods face challenges in accurate image detection and modal matching when processing archaeological catalogs, making automated collection difficult. To address these issues, we propose a novel archaeological catalog collection method based on Large Vision-Language Models that follows an approach comprising three modules: document localization, block comprehension and block matching. Through practical data collection from the Dabagou and Miaozigou pottery catalogs and comparison experiments, we demonstrate the effectiveness of our approach, providing a reliable solution for automated collection of archaeological catalogs.
- Abstract(参考訳): アーティファクト画像、形態的記述、発掘情報などの重要な要素を含む考古学的カタログは、アーティファクトの進化や文化遺産を研究する上で不可欠である。
これらのデータは出版物に広く分散しており、自動収集方法が必要である。
しかし、既存のLarge Vision-Language Models(VLM)とその派生データ収集手法は、考古学的カタログを処理する際に、正確な画像検出とモーダルマッチングの課題に直面しており、自動収集を困難にしている。
これらの課題に対処するため,我々は,文書のローカライゼーション,ブロック理解,ブロックマッチングという3つのモジュールからなるアプローチに従う,大規模視覚言語モデルに基づく新しい考古学的カタログ収集手法を提案する。
ダバゴとミアオジゴの陶器カタログからのデータ収集と比較実験を通じて,本手法の有効性を実証し,考古学的カタログの自動収集のための信頼性の高いソリューションを提供する。
関連論文リスト
- Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - Transformers and Language Models in Form Understanding: A Comprehensive
Review of Scanned Document Analysis [16.86139440201837]
我々は、スキャンされた文書の文脈におけるフォーム理解のトピックに焦点を当てる。
我々の研究手法は、人気文書の詳細な分析と過去10年間のトレンドの理解の形式に関するものである。
我々は、トランスフォーマーがいかにフィールドを前進させ、フォームアンダード技術に革命をもたらしたかを紹介する。
論文 参考訳(メタデータ) (2024-03-06T22:22:02Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and
Multi-Source Supervision [5.517240672957627]
本稿では,失った歴史的物体を視覚的形状に正確に反映する,知識を意識した新しい人工物画像合成手法を提案する。
既存の手法と比較して,提案手法は文書に含まれる暗黙の細部や歴史的知識とよく一致した高品質なアーティファクト画像を生成する。
論文 参考訳(メタデータ) (2023-12-13T11:03:07Z) - AutArch: An AI-assisted workflow for object detection and automated
recording in archaeological catalogues [37.69303106863453]
本稿では,遺産として利用可能な考古学的発見カタログからデータを収集するための新しいワークフローを紹介する。
このワークフローは、自動検索されたデータの検証と調整を行う画像処理、オブジェクト検出、インタラクティブな手段をサポートするカスタムソフトウェア(AutArch)に依存している。
我々は、人工知能(AI)を、物体の検出と分類のためのニューラルネットワークの観点でワークフローに統合する。
論文 参考訳(メタデータ) (2023-11-29T17:24:04Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - Enhancing Object Detection in Ancient Documents with Synthetic Data
Generation and Transformer-Based Models [0.4125187280299248]
本研究は, 偽陽性を低減し, 精度を向上させることによって, 古文書における物体検出の精度を高めることを目的とする。
本稿では,計算メディエーションによる合成データセットの作成を含む手法を提案する。
我々のアプローチには、オブジェクトをコンポーネント部品に関連付けることや、異なるシンボルと文書要素を識別するための視覚的特徴マップの導入が含まれます。
論文 参考訳(メタデータ) (2023-07-29T15:29:25Z) - Unsupervised Clustering of Roman Potsherds via Variational Autoencoders [63.8376359764052]
我々は,ローマのコモンウェア・ポッシャードの分類作業において,考古学者を支援する人工知能ソリューションを提案する。
断片の部分性と手作りのばらつきは、それらのマッチングを困難な問題にしている。
深部畳み込み変分オートエンコーダ(VAE)ネットワークの潜時空間で学習した非線形特徴の教師なし階層的クラスタリングにより、類似したプロファイルをペアリングすることを提案する。
論文 参考訳(メタデータ) (2022-03-14T18:56:13Z) - Object Retrieval and Localization in Large Art Collections using Deep
Multi-Style Feature Fusion and Iterative Voting [10.807131260367298]
本稿では,特定のモチーフやオブジェクトを含む画像領域を検索するアルゴリズムを提案する。
GPUによる近似近傍探索による領域ベースの投票では、広範囲なデータセット内の小さなモチーフを数秒で見つけ、ローカライズすることが可能です。
論文 参考訳(メタデータ) (2021-07-14T18:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。