論文の概要: Can you hear me $\textit{now}$? Sensitive comparisons of human and
machine perception
- arxiv url: http://arxiv.org/abs/2003.12362v2
- Date: Wed, 3 Aug 2022 01:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 04:44:57.898474
- Title: Can you hear me $\textit{now}$? Sensitive comparisons of human and
machine perception
- Title(参考訳): あなたは$\textit{now}$を聞こえるか?
人間と機械の知覚の敏感な比較
- Authors: Michael A Lepori and Chaz Firestone
- Abstract要約: 我々は、この非対称性が、人間と機械の知覚の重なり合いを誤って推定する比較をいかに引き起こすかを探る。
5つの実験において、人間の心理物理学文献のタスクデザインを適用し、被験者がそのような音声コマンドを自由に書き起こせない場合でも、他の形態の理解を示せることを示す。
我々は、人間と機械の知覚を比較する際に、このような「敏感なテスト」を採用することを推奨する。
- 参考スコア(独自算出の注目度): 3.8580784887142774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of machine-learning systems that process sensory input has brought
with it a rise in comparisons between human and machine perception. But such
comparisons face a challenge: Whereas machine perception of some stimulus can
often be probed through direct and explicit measures, much of human perceptual
knowledge is latent, incomplete, or unavailable for explicit report. Here, we
explore how this asymmetry can cause such comparisons to misestimate the
overlap in human and machine perception. As a case study, we consider human
perception of \textit{adversarial speech} -- synthetic audio commands that are
recognized as valid messages by automated speech-recognition systems but that
human listeners reportedly hear as meaningless noise. In five experiments, we
adapt task designs from the human psychophysics literature to show that even
when subjects cannot freely transcribe such speech commands (the previous
benchmark for human understanding), they often can demonstrate other forms of
understanding, including discriminating adversarial speech from closely matched
non-speech (Experiments 1--2), finishing common phrases begun in adversarial
speech (Experiments 3--4), and solving simple math problems posed in
adversarial speech (Experiment 5) -- even for stimuli previously described as
unintelligible to human listeners. We recommend the adoption of such "sensitive
tests" when comparing human and machine perception, and we discuss the broader
consequences of such approaches for assessing the overlap between systems.
- Abstract(参考訳): 感覚入力を処理する機械学習システムの台頭により、人間と機械の知覚の比較が増加してきた。
機械による刺激の認識は直接的かつ明示的な測定によって調査されることが多いが、人間の知覚的知識の多くは潜伏しているか不完全か、明示的な報告で利用できない。
本稿では,この非対称性が人間と機械の知覚の重なりを過小評価する原因となる可能性について考察する。
事例研究として,音声自動認識システムによって有効なメッセージとして認識される合成音声コマンドである \textit{adversarial speech} の人間の知覚について検討した。
In five experiments, we adapt task designs from the human psychophysics literature to show that even when subjects cannot freely transcribe such speech commands (the previous benchmark for human understanding), they often can demonstrate other forms of understanding, including discriminating adversarial speech from closely matched non-speech (Experiments 1--2), finishing common phrases begun in adversarial speech (Experiments 3--4), and solving simple math problems posed in adversarial speech (Experiment 5) -- even for stimuli previously described as unintelligible to human listeners.
我々は、人間と機械の知覚を比較する際に、このような「敏感なテスト」を採用することを推奨し、システム間の重複を評価するために、そのようなアプローチの広範な結果について議論する。
関連論文リスト
- SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation [0.6964027823688135]
現代の会話システムは、人間の相互作用の感情的な深さと非流動的な特徴を欠いている。
この欠点に対処するため、我々は革新的な音声合成パイプラインを設計した。
このフレームワーク内では、最先端の言語モデルが、ゼロショット設定で人間のような感情と分散の両方を導入する。
論文 参考訳(メタデータ) (2024-03-31T00:38:02Z) - Hearing Loss Detection from Facial Expressions in One-on-one
Conversations [20.12296163231457]
聴覚障害のある人は、特に騒々しい環境では会話が困難である。
この困難はしばしば行動の変化として現れ、不快感や疲労などの表情によって捉えられる。
我々は,このアイデアに基づいて,会話中の人物の表情から聴覚障害を検出する問題を提起する。
論文 参考訳(メタデータ) (2024-01-17T04:52:32Z) - Robots-Dont-Cry: Understanding Falsely Anthropomorphic Utterances in
Dialog Systems [64.10696852552103]
非常に人為的な反応は、ユーザーが人間と対話していると考えることを不快に、あるいは暗黙的に騙すかもしれない。
9つの異なるデータソースからサンプリングした約900の2ターンダイアログの実現可能性に関する人間の評価を収集する。
論文 参考訳(メタデータ) (2022-10-22T12:10:44Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Exemplars-guided Empathetic Response Generation Controlled by the
Elements of Human Communication [88.52901763928045]
そこで本稿では, インターロケータへの共感を伝達する, 造形モデルによる細かな構造的特性の解明に先立って, 模範的手法を提案する。
これらの手法は, 自動評価指標と人的評価指標の両方の観点から, 共感的応答品質の大幅な改善をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2021-06-22T14:02:33Z) - Dompteur: Taming Audio Adversarial Examples [28.54699912239861]
敵対的な例では、攻撃者は任意の機械学習システムを操作できる。
本稿では、ASRシステムに対する敵対的事例の存在を受け入れるが、人間の聴取者によって認識されるよう要求する。
心理音響学の原理を適用することで、ASR入力から意味的に無関係な情報を除去し、人間の知覚によく似たモデルを訓練することができる。
論文 参考訳(メタデータ) (2021-02-10T13:53:32Z) - Predicting Emotions Perceived from Sounds [2.9398911304923447]
音化とは、音を通してユーザとデータやイベントを通信する科学である。
本稿では、いくつかの主流および従来型の機械学習アルゴリズムを開発する実験を行う。
知覚された感情を高い精度で予測することが可能である。
論文 参考訳(メタデータ) (2020-12-04T15:01:59Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - On the human evaluation of audio adversarial examples [1.7006003864727404]
逆の例は、意図的に摂動して、気づかれずに間違った予測を生成する入力である。
提案した対向的摂動戦略のばかばかしさは、摂動が検出できない場合にのみ有用である。
コンベンションで使用されるメトリクスは、音声領域における敵対的事例の知覚的類似性の信頼できる尺度ではないことを実証する。
論文 参考訳(メタデータ) (2020-01-23T10:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。