論文の概要: Is Semi-Automatic Transcription Useful in Corpus Creation? Preliminary Considerations on the KIParla Corpus
- arxiv url: http://arxiv.org/abs/2603.16258v1
- Date: Tue, 17 Mar 2026 08:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.17917
- Title: Is Semi-Automatic Transcription Useful in Corpus Creation? Preliminary Considerations on the KIParla Corpus
- Title(参考訳): コーパス生成に半自動転写は有用か? KIParla Corpusに関する予備的考察
- Authors: Martina Simonotti, Ludovica Pannitto, Eleonora Zucchini, Silvia Ballarè, Caterina Mauri,
- Abstract要約: 我々は,自動音声認識の実装を,イタリア語のリソースであるKIParla corpusの転写ワークフローに解析する。
ASRによる転写は転写速度を向上するが、全体的な精度は一貫して向上しないことを示す。
制限にもかかわらず、ASRによる転写はKIParla転写ワークフローに統合され、転写品質を損なうことなくコーパス生成を促進できる。
- 参考スコア(独自算出の注目度): 0.03262230127283451
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper analyses the implementation of Automatic Speech Recognition (ASR) into the transcription workflow of the KIParla corpus, a resource of spoken Italian. Through a two-phase experiment, 11 expert and novice transcribers produced both manual and ASR-assisted transcriptions of identical audio segments across three different types of conversation, which were subsequently analyzed through a combination of statistical modeling, word-level alignment and a series of annotation-based metrics. Results show that ASR-assisted workflows can increase transcription speed but do not consistently improve overall accuracy, with effects depending on multiple factors such as workflow configuration, conversation type and annotator experience. Analyses combining alignment-based metrics, descriptive statistics and statistical modeling provide a systematic framework to monitor transcription behavior across annotators and workflows. Despite limitations, ASR-assisted transcription, potentially supported by task-specific fine-tuning, could be integrated into the KIParla transcription workflow to accelerate corpus creation without compromising transcription quality.
- Abstract(参考訳): 本稿では、イタリア語のリソースであるKIParla corpusの転写ワークフローにおける自動音声認識(ASR)の実装について分析する。
2段階の実験を通じて、11人の専門家と初心者の翻訳者が、3つの異なるタイプの会話で同一の音声セグメントを手動とASRで書き起こし、その後、統計的モデリング、単語レベルのアライメント、一連のアノテーションベースのメトリクスの組み合わせで分析した。
その結果、ASR支援ワークフローは転写速度を向上できるが、ワークフロー構成、会話タイプ、アノテーション体験など、複数の要因に依存するため、全体的な精度は一貫して向上しないことがわかった。
アライメントベースのメトリクス、記述統計、統計モデリングを組み合わせた分析は、アノテータとワークフロー間の転写挙動を監視するための体系的なフレームワークを提供する。
制限にもかかわらず、タスク固有の微調整によって潜在的に支持されるASR補助転写は、KIParla転写ワークフローに統合され、転写品質を損なうことなくコーパス生成を加速することができる。
関連論文リスト
- ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - Halving transcription time: A fast, user-friendly and GDPR-compliant workflow to create AI-assisted transcripts for content analysis [0.0]
質的研究では、データ書き起こしは労働集約的で時間を要することが多い。
このプロセスの迅速化のために、人工知能(AI)を利用したワークフローを開発した。
このワークフロー内では、音声記録から最初の書き起こしを生成するために自動音声認識が使用される。
論文 参考訳(メタデータ) (2025-03-17T10:33:39Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。