論文の概要: SARCH: Multimodal Search for Archaeological Archives
- arxiv url: http://arxiv.org/abs/2511.05667v1
- Date: Fri, 07 Nov 2025 19:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.52505
- Title: SARCH: Multimodal Search for Archaeological Archives
- Title(参考訳): SARCH: 考古学資料のマルチモーダル検索
- Authors: Nivedita Sinha, Bharati Khanijo, Sanskar Singh, Priyansh Mahant, Ashutosh Roy, Saubhagya Singh Bhadouria, Arpan Jain, Maya Ramanath,
- Abstract要約: 本稿では,古文書や報告を検索するためのマルチモーダル検索システムについて述べる。
このコーパスはスキャンされたPDFとしてデジタルで入手できるが、スキャンの品質は様々である。
私たちのパイプラインは、マルチモーダルな考古学文書、テキスト、画像(地図、写真、レイアウトなどに分類される)、テーブルの抽出とインデックスのために設計されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we describe a multi-modal search system designed to search old archaeological books and reports. This corpus is digitally available as scanned PDFs, but varies widely in the quality of scans. Our pipeline, designed for multi-modal archaeological documents, extracts and indexes text, images (classified into maps, photos, layouts, and others), and tables. We evaluated different retrieval strategies, including keyword-based search, embedding- based models, and a hybrid approach that selects optimal results from both modalities. We report and analyze our preliminary results and discuss future work in this exciting vertical.
- Abstract(参考訳): 本稿では,古文書や報告を検索するためのマルチモーダル検索システムについて述べる。
このコーパスはスキャンされたPDFとしてデジタルで入手できるが、スキャンの品質は様々である。
私たちのパイプラインは、マルチモーダルな考古学文書、テキスト、画像(地図、写真、レイアウトなどに分類される)、テーブルの抽出とインデックスのために設計されています。
キーワードベースの検索,埋め込みベースモデル,および両モードから最適な結果を選択するハイブリッドアプローチなど,さまざまな検索戦略を評価した。
予備結果を報告し分析し、このエキサイティングな分野における今後の課題について論じる。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。
画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。
アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文 参考訳(メタデータ) (2024-09-09T08:06:50Z) - Smart Multi-Modal Search: Contextual Sparse and Dense Embedding Integration in Adobe Express [3.8973445113342433]
スケーラブルなマルチモーダル検索システムを構築するには、いくつかのコンポーネントを微調整する必要がある。
埋め込みモデル選択、マッチングとランク付けにおける埋め込みの役割、密着と疎着のバランス等について考察する。
論文 参考訳(メタデータ) (2024-08-26T23:52:27Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - A New Neural Search and Insights Platform for Navigating and Organizing
AI Research [56.65232007953311]
我々は、古典的なキーワード検索とニューラル検索を組み合わせた新しいプラットフォームであるAI Research Navigatorを導入し、関連する文献を発見し整理する。
本稿では,システム全体のアーキテクチャの概要と,文書分析,質問応答,検索,分析,専門家検索,レコメンデーションの構成要素について概説する。
論文 参考訳(メタデータ) (2020-10-30T19:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。