論文の概要: Lost in Speech: Benchmarking, Evaluation, and Parsing of Spoken Code-Switching Beyond Standard UD Assumptions
- arxiv url: http://arxiv.org/abs/2602.06307v1
- Date: Fri, 06 Feb 2026 02:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.18705
- Title: Lost in Speech: Benchmarking, Evaluation, and Parsing of Spoken Code-Switching Beyond Standard UD Assumptions
- Title(参考訳): Lost in Speech: 標準UD以上のスポンクコードスイッチのベンチマーク、評価、パーシング
- Authors: Nemika Tyagi, Holly Hendrix, Nelvin Licona-Guevara, Justin Mackie, Phanos Kareen, Muhammad Imran, Megan Michelle Smith, Tatiana Gallego Hernande, Chitta Baral, Olga Kellert,
- Abstract要約: Spoken Code-switching (CSW) は、テキストで見えない方法で構文解析に挑戦する。
分散、反復、楕円、談話駆動構造は、通常、標準の普遍依存(UD)前提に反する。
- 参考スコア(独自算出の注目度): 23.2725831877861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken code-switching (CSW) challenges syntactic parsing in ways not observed in written text. Disfluencies, repetition, ellipsis, and discourse-driven structure routinely violate standard Universal Dependencies (UD) assumptions, causing parsers and large language models (LLMs) to fail despite strong performance on written data. These failures are compounded by rigid evaluation metrics that conflate genuine structural errors with acceptable variation. In this work, we present a systems-oriented approach to spoken CSW parsing. We introduce a linguistically grounded taxonomy of spoken CSW phenomena and SpokeBench, an expert-annotated gold benchmark designed to test spoken-language structure beyond standard UD assumptions. We further propose FLEX-UD, an ambiguity-aware evaluation metric, which reveals that existing parsing techniques perform poorly on spoken CSW by penalizing linguistically plausible analyses as errors. We then propose DECAP, a decoupled agentic parsing framework that isolates spoken-phenomena handling from core syntactic analysis. Experiments show that DECAP produces more robust and interpretable parses without retraining and achieves up to 52.6% improvements over existing parsing techniques. FLEX-UD evaluations further reveal qualitative improvements that are masked by standard metrics.
- Abstract(参考訳): Spoken Code-switching (CSW) は、テキストで見えない方法で構文解析に挑戦する。
分散、反復、楕円、談話駆動構造は通常の普遍依存(UD)の仮定に常に違反し、筆記データの性能が強いにもかかわらずパーサーや大言語モデル(LLM)は失敗する。
これらの失敗は、真の構造的誤りを許容可能なばらつきで説明する厳密な評価指標によって合成される。
本研究では,音声CSW解析におけるシステム指向のアプローチを提案する。
我々は,音声CSW現象の言語学的基盤とした分類法と,標準UDの仮定を超えて音声言語構造をテストするために設計された専門家による金のベンチマークであるSpokeBenchを紹介する。
さらに,言語学的に妥当な分析を誤りとして解析することで,既存の構文解析手法が音声CSWに悪影響を及ぼすことを示すあいまいさを考慮した評価指標であるFLEX-UDを提案する。
そこで我々は,音声フェノメナ処理をコア構文解析から分離する分離されたエージェント解析フレームワークDECAPを提案する。
実験の結果、DECAPは再トレーニングなしでより堅牢で解釈可能なパースを生成し、既存のパース技術よりも最大52.6%改善されている。
FLEX-UDの評価は、標準メトリクスによって隠蔽される質的な改善をさらに明らかにする。
関連論文リスト
- AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。
AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文 参考訳(メタデータ) (2026-01-21T07:35:36Z) - Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework [17.91981142492207]
本稿では,ユーザ行動に根ざした制御されたフレーズを生成するフレームワークであるAUGMENTを紹介する。
AUGMENTは言語的に情報を得た規則を活用し、命令の順守、意味的類似性、リアリズムのチェックを通じて品質を強制する。
ケーススタディでは、制御されたパラフレーズは、制約のない変動の下で隠されたままの系統的な弱点を明らかにする。
論文 参考訳(メタデータ) (2025-05-06T14:17:30Z) - What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。
本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文 参考訳(メタデータ) (2024-09-04T05:08:23Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。
係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T17:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。