論文の概要: Vidya: An AI-Driven Modular Pipeline for Archival Automation and Semantic Metadata Enrichment
- arxiv url: http://arxiv.org/abs/2605.16338v1
- Date: Thu, 07 May 2026 11:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.89419
- Title: Vidya: An AI-Driven Modular Pipeline for Archival Automation and Semantic Metadata Enrichment
- Title(参考訳): Vidya: アーカイブ自動化とセマンティックメタデータ強化のためのAI駆動のモジュールパイプライン
- Authors: Cloter Migliorini Filho, Julia Graciela Machado, Edson Armando Silva, Marcella Scoczynski,
- Abstract要約: 歴史的アーカイブの大規模なデジタル化は、検索のメタデータを欠いた「暗黒データ」-デジタルオブジェクトというパラドックスを生み出した。
本稿では,Large Language Models(LLM)とFOSSツールをオーケストレーションし,セマンティックエンリッチメントとアーカイブの取り込みを自動化するモジュールパイプラインであるVidyaを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The large-scale digitization of historical archives has created a paradox: "dark data"-digital objects lacking metadata for retrieval. Manual archival description is slow and expensive, limiting discovery and reuse. We propose Vidya, a modular pipeline that orchestrates Large Language Models (LLMs) and FOSS tools to automate semantic enrichment and archival ingestion at scale. Vidya constrains generations using YAML-defined ontologies and Pydantic validation, producing deterministic, structured JSON outputs from probabilistic models. Developed at Laboratory for Digital Humanities and Innovation (LAMUHDI) of the State University of Ponta Grossa (UEPG), Vidya applies Maker principles and open-source practices to enable low-cost deployment in memory institutions using modest hardware. We compare LLM performance and present a cost-benefit analysis showing major gains, reducing processing time from decades to days while complying with NOBRADE and ISAD(G).
- Abstract(参考訳): 歴史的アーカイブの大規模なデジタル化は、"ダークデータ"-デジタルオブジェクトが検索のメタデータを欠いているパラドックスを生み出した。
手作業によるアーカイブの記述は遅くて費用がかかり、発見と再利用が制限される。
大規模言語モデル(LLM)とFOSSツールをオーケストレーションし,意味的エンリッチメントとアーカイブの大規模取り込みを自動化するモジュールパイプラインであるVidyaを提案する。
VidyaはYAML定義オントロジーとPydanticバリデーションを使用して世代を制約し、確率モデルから決定論的に構造化されたJSON出力を生成する。
ポンタグロッサ州立大学(UEPG)のデジタル人文科学イノベーション研究所(LAMUHDI)で開発されたVidyaは、メーカーの原則とオープンソースプラクティスを適用して、控えめなハードウェアを使用したメモリシステムへの低コストな展開を可能にする。
我々は,NOBRADEとISAD(G)に準拠した処理時間を数十年から数日に短縮し,LLMの性能を比較し,費用対効果の分析を行った。
関連論文リスト
- MeMo: Memory as a Model [96.54179792557863]
大規模言語モデル(LLM)は、幅広いタスクにわたって強力なパフォーマンスを達成するが、その後の更新まで事前訓練後に凍結される。
MeMoは、LLMパラメータを変更せずに、新しい知識を専用のメモリモデルにエンコードするモジュラーフレームワークである。
MeMoは、さまざまな設定にまたがる既存のメソッドと比較して、強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-05-14T17:51:34Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models [8.02264001053969]
大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。
LLMの継続的なイノベーションが最適化に役立ち、モデルアーキテクチャはブレークネックスピードで進化しているため、サービスレベルオブジェクト(SLO)を満たすためのハードウェア要件は、オープンな研究課題のままである。
我々は、多様なLLMモデルアーキテクチャとAIプラットフォーム設計パラメータの関係を効率的にナビゲートする分析ツールGenZを提案する。
論文 参考訳(メタデータ) (2024-06-03T18:00:50Z) - UniRAG: Universal Retrieval Augmentation for Large Vision Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。
Retrieval Augmentation(RA)は、主に非一般的なエンティティの生成や理解を改善するという一般的な信念とは異なり、MSCOCOデータセットの共通エンティティによる評価結果は、プロプライエタリモデルとより小さなオープンソースモデルの両方が生成品質を著しく向上させることを示している。
論文 参考訳(メタデータ) (2024-05-16T17:58:45Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - PyRelationAL: a python library for active learning research and development [1.0061110876649197]
アクティブラーニング(英: Active Learning, AL)は、反復的かつ経済的にデータを取得する手法の開発に焦点を当てたMLのサブフィールドである。
本稿では,AL研究のためのオープンソースライブラリであるPyRelationALを紹介する。
プールベースのアクティブラーニング戦略を構成するための2段階の設計方法論をベースとしたモジュラーツールキットについて述べる。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。