Fugu-MT 論文翻訳(概要): Transcription and Recognition of Italian Parliamentary Speeches Using Vision-Language Models

論文の概要: Transcription and Recognition of Italian Parliamentary Speeches Using Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.28103v1
Date: Mon, 30 Mar 2026 07:06:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.269409
Title: Transcription and Recognition of Italian Parliamentary Speeches Using Vision-Language Models
Title（参考訳）: 視覚言語モデルを用いたイタリア語議会音声の転写と認識
Authors: Luigi Curini, Alfio Ferrara, Giovanni Pagano, Sergio Picascia,
Abstract要約: イタリアの議会演説を転写するための既存の努力は、従来の光学文字認識パイプラインに依存してきた。イタリア議会演説の自動書き起こし,セマンティックセグメンテーション,エンティティリンクのためのビジョン言語モデルに基づくパイプラインを提案する。
参考スコア（独自算出の注目度）: 2.8348950186890467
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parliamentary proceedings represent a rich yet challenging resource for computational analysis, particularly when preserved only as scanned historical documents. Existing efforts to transcribe Italian parliamentary speeches have relied on traditional Optical Character Recognition pipelines, resulting in transcription errors and limited semantic annotation. In this paper, we propose a pipeline based on Vision-Language Models for the automatic transcription, semantic segmentation, and entity linking of Italian parliamentary speeches. The pipeline employs a specialised OCR model to extract text while preserving reading order, followed by a large-scale Vision-Language Model that performs transcription refinement, element classification, and speaker identification by jointly reasoning over visual layout and textual content. Extracted speakers are then linked to the Chamber of Deputies knowledge base through SPARQL queries and a multi-strategy fuzzy matching procedure. Evaluation against an established benchmark demonstrates substantial improvements both in transcription quality and speaker tagging.
Abstract（参考訳）: 議会の手続きは、特にスキャンされた歴史文書としてのみ保存される場合、計算分析のための豊富な資源である。既存のイタリアの議会演説の書き起こし作業は、従来の光学文字認識パイプラインに依存しており、結果として転写エラーと限定的な意味的アノテーションが生じる。本稿では,イタリア議会演説の自動書き起こし,セマンティックセグメンテーション,エンティティリンクのためのビジョン言語モデルに基づくパイプラインを提案する。パイプラインは読み順を保ちながらテキストを抽出するために特殊化されたOCRモデルを使用し、続いて視覚的レイアウトとテキストコンテンツについて共同で推論することで、文字の精細化、要素分類、話者識別を行う大規模なビジョン・ランゲージモデルを実行する。抽出された話者は、SPARQLクエリとマルチストラテジーファジィマッチング手順を通じて、Curber of Deputiesナレッジベースにリンクされる。確立されたベンチマークに対する評価は、転写品質と話者タグ付けの両方で大幅に改善されている。

関連論文リスト

PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。 PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文参考訳（メタデータ） (2026-01-20T15:00:36Z)
Seeing Justice Clearly: Handwritten Legal Document Translation with OCR and Vision-Language Models [8.62418063092899]
手書き文字認識(HTR)と機械翻訳は依然として大きな課題となっている。従来のOCRシステムは手書き画像からテキストを抽出し、機械翻訳モデルを用いて対象言語に翻訳する。本研究では,従来のOCR-MTパイプラインの性能を,これらのステージの統合を目的としたビジョン大言語モデルと比較する。当社のモチベーションは、インドの地方裁判所や高等裁判所の法的記録をデジタル化する、スケーラブルで正確な翻訳システムが必要であることにある。
論文参考訳（メタデータ） (2025-12-19T19:06:14Z)
Preservation of Language Understanding Capabilities in Speech-aware Large Language Models [3.770636357625305]
このベンチマークでは、テキストタスクと音声クローニングテキスト音声モデルを用いて、モデルが音声入力を介してアクセスされたときの言語理解能力の保存範囲を定量化する。 C3Tは、話者の異なるカテゴリのモデルの公平さと、テキストと音声のモダリティをまたいだ頑健さを定量化する。
論文参考訳（メタデータ） (2025-09-15T17:34:45Z)
Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文参考訳（メタデータ） (2025-05-26T07:21:20Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Political corpus creation through automatic speech recognition on EU debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。 EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文参考訳（メタデータ） (2023-04-17T10:41:59Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
Text-Free Image-to-Speech Synthesis Using Learned Segmental Units [24.657722909094662]
画像の自然な音声キャプションを直接流用する最初のモデルを提案する。我々は、画像キャプションモジュールと音声合成モジュールを、独立したサブワード音声ユニットのセットで接続する。 Flickr8k音声キャプションデータセットと、人気のMSCOCOデータセットのために収集された音声キャプションの新しいコーパスについて実験を行います。
論文参考訳（メタデータ） (2020-12-31T05:28:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。