Fugu-MT 論文翻訳(概要): Ouvia: A User-centered Framework for Measuring Usability of Speech Translation in Real-World Communication Scenarios

論文の概要: Ouvia: A User-centered Framework for Measuring Usability of Speech Translation in Real-World Communication Scenarios

arxiv url: http://arxiv.org/abs/2606.06177v1
Date: Thu, 04 Jun 2026 13:52:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.830193
Title: Ouvia: A User-centered Framework for Measuring Usability of Speech Translation in Real-World Communication Scenarios
Title（参考訳）: Ouvia: リアルタイムコミュニケーションシナリオにおける音声翻訳のユーザビリティ測定のためのユーザ中心フレームワーク
Authors: Giuseppe Attanasio, Beatrice Savoldi, Daniel Chechelnitsky, Matteo Negri, Marine Carpuat, Maarten Sap, André F. T. Martins,
Abstract要約: 音声翻訳(ST)はユーザアプリケーションではますます普及しているが、その評価は非テキスト化テストベッドと全体的な品質に重点を置いている。実環境における音声翻訳のユーザビリティを評価するための評価フレームワークであるOuviaを紹介する。
参考スコア（独自算出の注目度）: 63.167237308464536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech translation (ST) is increasingly adopted in user applications, yet its evaluation largely focuses on decontextualized testbeds and holistic quality, rather than end users' communication needs. We introduce Ouvia, an evaluation framework for measuring user-perceived usability of speech translation outputs in real-world settings. Ouvia focuses on one-to-one communication: an English speaker needs to convey a request to a Portuguese speaker, and the message is automatically translated. Through a custom web app and multi-phase study design, we collect more than 1,750 such interactions in healthcare and everyday situations, mediated by four ST systems, involving speakers from three English dialects and two genders. We find that modern ST serves people only to a limited extent -- only around half of interactions are rated as usable -- with significant gaps in reported usability across demographic groups. Moreover, among quality metrics, we find that QA-based evaluation is a substantially stronger predictor of real-world usability than standard approaches. Together, these findings stress the importance of situated, user-centered evaluation frameworks that go beyond holistic quality scores and attend to who the technology serves -- and how well.
Abstract（参考訳）: 音声翻訳(ST)はますますユーザアプリケーションに採用されつつあるが、その評価は主にエンドユーザーのコミュニケーションニーズよりも、非コンテクスト化されたテストベッドと全体的な品質に焦点を当てている。実環境における音声翻訳のユーザビリティを評価するための評価フレームワークであるOuviaを紹介する。英語話者はポルトガル語話者に要求を伝える必要があり、メッセージは自動的に翻訳される。カスタムウェブアプリとマルチフェーズ・スタディデザインにより,3つの英語方言と2つのジェンダーの話者を含む4つのSTシステムを介して,医療と日常の状況における1,750以上のインタラクションを収集する。現代のSTは、人口統計グループ間で報告されたユーザビリティに大きなギャップがあるが、人々(インタラクションの約半数が使用可能なものとして評価されている)に限られた範囲でしか役に立たない。さらに,品質指標では,QAに基づく評価は,従来の手法よりも現実のユーザビリティの予測がかなり強いことが判明した。これらの発見は、総合的な品質スコアを超えて、その技術が何を提供するのか、そしていかにうまく機能するか、という位置にあるユーザ中心の評価フレームワークの重要性を強調している。

関連論文リスト

MUSCAT: MUltilingual, SCientific ConversATion Benchmark [60.87925076316812]
多言語音声技術の目標は、異なる言語を話す個人間のシームレスなコミュニケーションを容易にすることである。この経験を生み出すためには、音声技術は、混合多言語入力、特定の語彙、コードスイッチングといったいくつかの課題に対処する必要がある。本稿では,これらの課題に対処できるかどうかを問う,現在の音声認識(ASR)システムを評価するための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2026-04-17T10:39:01Z)
Multilingual Self-Taught Faithfulness Evaluators [11.200203292660758]
合成多言語要約データからのみ学習するフレームワークである。我々のフレームワークは、最先端の英語評価器や機械翻訳に基づくアプローチなど、既存のベースラインよりも改善されている。
論文参考訳（メタデータ） (2025-07-28T12:01:59Z)
WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild [40.210224623581155]
マルチモーダル大規模言語モデル (LLM) は直接音声対話の強力な機能を示している。既存の評価手法は、しばしばテキストベースのベンチマークに適応し、音声の特徴や課題を見下ろしている。本稿では,実践会話におけるエンドツーエンドの音声LLMを体系的に評価するために設計された,最初の総合的ベンチマークを紹介する。
論文参考訳（メタデータ） (2025-06-27T03:18:45Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
Is Context Helpful for Chat Translation Evaluation? [23.440392979857247]
我々は、機械翻訳チャットの品質を評価するために、既存の文レベル自動メトリクスのメタ評価を行う。参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。大規模言語モデルを用いたバイリンガル文脈を用いた新しい評価指標 Context-MQM を提案する。
論文参考訳（メタデータ） (2024-03-13T07:49:50Z)
The Conversational Short-phrase Speaker Diarization (CSSD) Task: Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文参考訳（メタデータ） (2022-08-17T03:26:23Z)
Towards the evaluation of simultaneous speech translation from a communicative perspective [0.0]
本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
論文参考訳（メタデータ） (2021-03-15T13:09:00Z)
Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文参考訳（メタデータ） (2020-05-01T20:01:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。