論文の概要: From Show Programmes to Data: Designing a Workflow to Make Performing Arts Ephemera Accessible Through Language Models
- arxiv url: http://arxiv.org/abs/2512.07452v1
- Date: Mon, 08 Dec 2025 11:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.857897
- Title: From Show Programmes to Data: Designing a Workflow to Make Performing Arts Ephemera Accessible Through Language Models
- Title(参考訳): ショープログラムからデータへ:ワークフローを設計し、言語モデルを通して芸術的エフェメラをアクセシブルにする
- Authors: Clarisse Bardiot, Pierre-Carl Langlais, Bernard Jacquemin, Jacob Hart, Antonios Lagarias, Nicolas Foucault, Aurélie Lemaître-Legargeant, Jeanne Fras,
- Abstract要約: 我々は、視覚言語モデルが生来のデジタルおよびデジタル化されたプログラムを正確に解析し、転写する方法を示す。
我々は、形式と意味の両方の報酬で強化学習を用いて推論モデル(POntAvignon)を訓練する。
このアプローチはRDFトリプルの自動生成を可能にし、既存の知識グラフとのアライメントをサポートする。
- 参考スコア(独自算出の注目度): 0.3331620034375478
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many heritage institutions hold extensive collections of theatre programmes, which remain largely underused due to their complex layouts and lack of structured metadata. In this paper, we present a workflow for transforming such documents into structured data using a combination of multimodal large language models (LLMs), an ontology-based reasoning model, and a custom extension of the Linked Art framework. We show how vision-language models can accurately parse and transcribe born-digital and digitised programmes, achieving over 98% of correct extraction. To overcome the challenges of semantic annotation, we train a reasoning model (POntAvignon) using reinforcement learning with both formal and semantic rewards. This approach enables automated RDF triple generation and supports alignment with existing knowledge graphs. Through a case study based on the Festival d'Avignon corpus, we demonstrate the potential for large-scale, ontology-driven analysis of performing arts data. Our results open new possibilities for interoperable, explainable, and sustainable computational theatre historiography.
- Abstract(参考訳): 多くの遺産団体は、複雑なレイアウトと構造化されたメタデータの欠如のために、劇場プログラムの大規模なコレクションを保有している。
本稿では,マルチモーダル大言語モデル(LLM)とオントロジーに基づく推論モデル,Linked Artフレームワークのカスタム拡張を組み合わせて,そのような文書を構造化データに変換するワークフローを提案する。
我々は、視覚言語モデルが生来のデジタル・デジタル化プログラムを正確に解析し、転写し、正しい抽出の98%以上を達成できることを示す。
意味的アノテーションの課題を克服するために,形式的および意味的報酬を伴う強化学習を用いて推論モデル(POntAvignon)を訓練する。
このアプローチはRDFトリプルの自動生成を可能にし、既存の知識グラフとのアライメントをサポートする。
The Festival d'Avignon corpusに基づくケーススタディを通じて,芸能データの大規模・オントロジー駆動分析の可能性を示した。
われわれは,相互運用可能な,説明可能な,持続的なコンピュータ・シアター・ヒストリグラフィーの新たな可能性を開く。
関連論文リスト
- The OCR Quest for Generalization: Learning to recognize low-resource alphabets with model editing [2.7471068141502]
我々は,アルファベットなどの新しいデータ分布に一般化可能なモデルの構築を,集中的な微調整戦略よりも高速に行うことを目的としている。
最先端のメタラーニングとは対照的に、データのスパース分布におけるドメインマージの有効性を示す。
この研究は、表現不足のアルファベットを簡単に適用できるモデルを構築するための新しいアプローチに寄与する。
論文 参考訳(メタデータ) (2025-06-07T11:05:33Z) - The Revolution of Multimodal Large Language Models: A Survey [46.84953515670248]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティをシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Enhancing Knowledge Graph Construction Using Large Language Models [0.0]
本稿では,ChatGPTのような基礎LPMの現在の進歩を,REBELのような特定の事前学習モデルと比較し,結合実体と関係抽出について述べる。
生テキストから知識グラフを自動生成するためのパイプラインを作成し,高度なLCMモデルを用いることで,非構造化テキストからこれらのグラフを作成するプロセスの精度が向上することを示した。
論文 参考訳(メタデータ) (2023-05-08T12:53:06Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。