論文の概要: Making History Readable
- arxiv url: http://arxiv.org/abs/2411.17600v1
- Date: Tue, 26 Nov 2024 17:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:12.683989
- Title: Making History Readable
- Title(参考訳): 歴史を読みやすくする
- Authors: Bipasha Banerjee, Jennifer Goyne, William A. Ingram,
- Abstract要約: このポスターは、手書きの手紙、新聞、デジタル化された地形図に焦点を当てた3つのコレクションをハイライトしている。
各コレクションで課題を議論し、それに対処するためのアプローチの詳細を述べます。
提案手法は,これらのコレクションの内容を検索し,ナビゲートしやすくすることで,ユーザエクスペリエンスを向上させることを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Virginia Tech University Libraries (VTUL) Digital Library Platform (DLP) hosts digital collections that offer our users access to a wide variety of documents of historical and cultural importance. These collections are not only of academic importance but also provide our users with a glance at local historical events. Our DLP contains collections comprising digital objects featuring complex layouts, faded imagery, and hard-to-read handwritten text, which makes providing online access to these materials challenging. To address these issues, we integrate AI into our DLP workflow and convert the text in the digital objects into a machine-readable format. To enhance the user experience with our historical collections, we use custom AI agents for handwriting recognition, text extraction, and large language models (LLMs) for summarization. This poster highlights three collections focusing on handwritten letters, newspapers, and digitized topographic maps. We discuss the challenges with each collection and detail our approaches to address them. Our proposed methods aim to enhance the user experience by making the contents in these collections easier to search and navigate.
- Abstract(参考訳): Virginia Tech University Libraries (VTUL) Digital Library Platform (DLP)は、デジタルコレクションをホストしています。
これらのコレクションは学術的な重要性だけでなく、ローカルな歴史的出来事を垣間見るユーザにも役立ちます。
我々のDLPには、複雑なレイアウト、色鮮やかな画像、読みにくい手書きテキストを含むデジタルオブジェクトからなるコレクションが含まれており、これらの素材へのオンラインアクセスが困難である。
これらの問題に対処するため、AIをDLPワークフローに統合し、デジタルオブジェクトのテキストを機械可読フォーマットに変換する。
歴史的コレクションのユーザエクスペリエンスを向上させるために,手書き認識,テキスト抽出,および要約のための大規模言語モデル(LLM)にカスタムAIエージェントを使用します。
このポスターは、手書きの手紙、新聞、デジタル化された地形図に焦点を当てた3つのコレクションをハイライトしている。
各コレクションで課題を議論し、それに対処するためのアプローチの詳細を述べます。
提案手法は,これらのコレクションの内容を検索し,ナビゲートしやすくすることで,ユーザエクスペリエンスを向上させることを目的としている。
関連論文リスト
- Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era [50.19334853510935]
命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。
我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
論文 参考訳(メタデータ) (2024-11-15T05:18:15Z) - A Library Perspective on Supervised Text Processing in Digital Libraries: An Investigation in the Biomedical Domain [3.9519587827662397]
本研究では,8つのバイオメディカルベンチマークを用いて,関係抽出とテキスト分類に焦点を当てた。
精度とアプリケーションコストのトレードオフを検討し、遠隔監視とChatGPT、LLama、Olmoといった大規模言語モデルを通じてデータ生成のトレーニングを行い、最終パイプラインの設計方法について論じる。
論文 参考訳(メタデータ) (2024-11-06T07:54:10Z) - Unlocking Comics: The AI4VA Dataset for Visual Understanding [62.345344799258804]
本稿では,1950年代のフレンチ・ベルジアン漫画に,深度推定,セマンティックセグメンテーション,サリエンシ検出,キャラクタ識別などのタスクを注記した新しいデータセットを提案する。
2つの異なる一貫したスタイルで構成され、自然画像から得られたオブジェクトの概念とラベルを取り入れている。
このような多様な情報を含むことで、このデータセットは計算の創造性を約束するだけでなく、アートのデジタル化やストーリーテリングの革新のための道も提供します。
論文 参考訳(メタデータ) (2024-10-27T14:27:05Z) - Integrating Visual and Textual Inputs for Searching Large-Scale Map Collections with CLIP [0.09208007322096533]
自然言語入力を用いて大規模地図コレクションを対話的に検索する可能性について検討する。
ケーススタディでは,議会図書館のAPIを通じて公開されている地図の572,842枚を採用。
本稿では,議会地理地図局の職員との相談で作成した検索結果について紹介する。
論文 参考訳(メタデータ) (2024-10-02T02:51:02Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Curatr: A Platform for Semantic Analysis and Curation of Historical
Literary Texts [5.075506385456811]
本稿では,機械学習によるセマンティックサーチによる文献の探索とキュレーションを行うオンラインプラットフォームであるCuratrを提案する。
このプラットフォームは、ニューラルネットワークの埋め込みと専門家のドメイン知識を組み合わせて、セマティックレキシコンの生成を可能にする。
論文 参考訳(メタデータ) (2023-06-13T15:15:31Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。
視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T13:06:46Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z) - Historical Document Processing: Historical Document Processing: A Survey
of Techniques, Tools, and Trends [0.0]
歴史文書処理は、歴史学者や他の学者が将来使用するために、過去に書かれた資料をデジタル化する過程である。
コンピュータビジョン、文書分析と認識、自然言語処理、機械学習など、コンピュータ科学の様々なサブフィールドからアルゴリズムやソフトウェアツールが組み込まれている。
論文 参考訳(メタデータ) (2020-02-15T01:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。