論文の概要: TalkTag: Fine-Grained Morphosyntactic Error Annotation for Transcribed Speech
- arxiv url: http://arxiv.org/abs/2606.01820v1
- Date: Mon, 01 Jun 2026 07:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.498341
- Title: TalkTag: Fine-Grained Morphosyntactic Error Annotation for Transcribed Speech
- Title(参考訳): TalkTag: 転写音声に対する細粒モルフォシンタクティックエラーアノテーション
- Authors: Shamira Venturini, Oliver Hennhöfer, Steffen Kinkel, Jannik Strötgen,
- Abstract要約: 本稿では,LLM ベースの軽量ツールである TalkTag について述べる。
評価の結果,TalkTagは,言語的曖昧さが自動タグ付けを本当に複雑にするインスタンスを効果的に識別しながら,正確かつ正確なアノテーションを生成することがわかった。
- 参考スコア(独自算出の注目度): 3.9890189460506966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained morphosyntactic error annotation is important in clinical and developmental language research, yet it is labour-intensive, expert-dependent, and difficult to scale. We present TalkTag, an LLM-based lightweight tool fine-tuned to automate CHAT-style error annotation in spoken-language transcripts. Developed under conditions of extreme data scarcity using children's narrative data, the system shows the feasibility of linguistic analysis in low-resource settings. Our evaluation demonstrates that TalkTag produces encouragingly precise annotation while effectively identifying instances where linguistic ambiguity makes automated tagging genuinely complex. In summary, with TalkTag, we provide a scalable alternative to manual error annotation and practically viable support for morphosyntactic error annotation.
- Abstract(参考訳): 微細なモルフォシンタクティック・エラー・アノテーションは、臨床および発達言語研究において重要であるが、労働集約的であり、専門家に依存し、スケールが困難である。
本稿では,LLM ベースの軽量ツールである TalkTag について述べる。
子どもの物語データを用いた極度のデータ不足の条件下で開発されたこのシステムは,低リソース環境における言語分析の可能性を示す。
評価の結果,TalkTagは,言語的あいまいさが自動タグ付けを本当に複雑にするインスタンスを効果的に識別しながら,正確かつ正確なアノテーションを生成することがわかった。
要約すると、TalkTagは手動エラーアノテーションに代わるスケーラブルな代替手段を提供し、モルフォシンタクティックエラーアノテーションの実用的なサポートを提供する。
関連論文リスト
- Automated Quality Control for Language Documentation: Detecting Phonotactic Inconsistencies in a Kokborok Wordlist [0.0]
バングラを用いたコクボロク品種の多言語データセットに教師なし異常検出法を適用した。
文字レベルと音節レベルの特徴は、潜在的な転写エラーや借用を識別するために使用される。
ハイリコールアプローチは、フィールドワーカーに検証を必要とするエントリをフラグする体系的な方法を提供する。
論文 参考訳(メタデータ) (2025-10-24T15:51:10Z) - Smooth Operators: LLMs Translating Imperfect Hints into Disfluency-Rich Transcripts [5.439020425819001]
大規模言語モデル(LLM)は、語彙入力と非語彙入力の両方を処理できる汎用的な学習者である。
本稿では, タイムスタンプを付加した明示的なトークンとして, 完全注釈付き不フルな書き起こしを生成するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-23T11:04:20Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Assessing the potential of LLM-assisted annotation for corpus-based pragmatics and discourse analysis: The case of apology [9.941695905504282]
本研究では,大規模言語モデル (LLM) を用いてプラグマ・ディスカッシブ・コーパスのアノテーションを自動生成する可能性について検討する。
GPT-4はGPT-3.5より優れており,精度は人間のコーダに近づいた。
論文 参考訳(メタデータ) (2023-05-15T04:10:13Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。