論文の概要: Robust CAPTCHA Using Audio Illusions in the Era of Large Language Models: from Evaluation to Advances
- arxiv url: http://arxiv.org/abs/2601.08516v1
- Date: Tue, 13 Jan 2026 13:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.203524
- Title: Robust CAPTCHA Using Audio Illusions in the Era of Large Language Models: from Evaluation to Advances
- Title(参考訳): 大規模言語モデルにおける音声イリュージョンを用いたロバストCAPTCHA:評価から進歩へ
- Authors: Ziqi Ding, Yunfeng Wan, Wei Song, Yi Liu, Gelei Deng, Nan Sun, Huadong Mo, Jingling Xue, Shidong Pan, Yuekang Li,
- Abstract要約: 我々は、評価フレームワーク、ACEval、新しいオーディオCAPTCHAアプローチであるIllusionAudioを提供する統合フレームワークであるAI-CAPTCHAを紹介する。
既存の手法のほとんどは、高度なLALMモデルとASRモデルによって高い成功率で解決できることを示し、重大なセキュリティ上の弱点を明らかにする。
これらの脆弱性に対処するために、人間の聴覚機構に根ざした知覚錯覚の手がかりを利用する新しい音響CAPTCHAアプローチIllusionAudioを設計した。
- 参考スコア(独自算出の注目度): 21.1525767544373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CAPTCHAs are widely used by websites to block bots and spam by presenting challenges that are easy for humans but difficult for automated programs to solve. To improve accessibility, audio CAPTCHAs are designed to complement visual ones. However, the robustness of audio CAPTCHAs against advanced Large Audio Language Models (LALMs) and Automatic Speech Recognition (ASR) models remains unclear. In this paper, we introduce AI-CAPTCHA, a unified framework that offers (i) an evaluation framework, ACEval, which includes advanced LALM- and ASR-based solvers, and (ii) a novel audio CAPTCHA approach, IllusionAudio, leveraging audio illusions. Through extensive evaluations of seven widely deployed audio CAPTCHAs, we show that most existing methods can be solved with high success rates by advanced LALMs and ASR models, exposing critical security weaknesses. To address these vulnerabilities, we design a new audio CAPTCHA approach, IllusionAudio, which exploits perceptual illusion cues rooted in human auditory mechanisms. Extensive experiments demonstrate that our method defeats all tested LALM- and ASR-based attacks while achieving a 100% human pass rate, significantly outperforming existing audio CAPTCHA methods.
- Abstract(参考訳): CAPTCHAは、自動化プログラムが解決するのが困難だが人間にとって容易な課題を示すことによって、ボットやスパムをブロックするウェブサイトで広く使用されている。
アクセシビリティを改善するために、オーディオCAPTCHAは視覚的に補完するように設計されている。
しかし,LALM(Large Audio Language Models)やASR(Automatic Speech Recognition)モデルに対するCAPTCHAの頑健さはいまだに不明である。
本稿では,AI-CAPTCHAについて紹介する。
i)高度なLALMおよびASRに基づく解法を含む評価フレームワークACEval
(II)新しいオーディオCAPTCHAアプローチ,IllusionAudio。
広範に展開された7つのオーディオCAPTCHAを広範囲に評価することにより、既存のほとんどの手法は、高度なLALMとASRモデルによって高い成功率で解決できることを示し、重大なセキュリティ上の弱点を露呈する。
これらの脆弱性に対処するために、人間の聴覚機構に根ざした知覚錯覚の手がかりを利用する新しい音響CAPTCHAアプローチIllusionAudioを設計した。
広汎な実験により,本手法はLALMおよびASRに基づく全攻撃を破り,100%のパスレートを実現し,既存のCAPTCHA法を著しく上回る結果を得た。
関連論文リスト
- SAFE-QAQ: End-to-End Slow-Thinking Audio-Text Fraud Detection via Reinforcement Learning [52.29460857893198]
既存の不正検出方法は、書き起こされたテキストに依存しており、ASRのエラーや、声調や環境条件のような重要な音響的手がかりが欠けている。
音声に基づくスロー思考詐欺検出のためのエンドツーエンド包括的フレームワークSAFE-QAQを提案する。
本フレームワークは,ライブコール中に動的リスクアセスメントフレームワークを導入し,不正の早期検出と防止を可能にする。
論文 参考訳(メタデータ) (2026-01-04T06:09:07Z) - Aura-CAPTCHA: A Reinforcement Learning and GAN-Enhanced Multi-Modal CAPTCHA System [1.4305544869388402]
Aura-CAPTCHAは、従来の手法の脆弱性に対処するマルチモーダルCAPTCHAシステムとして開発された。
この設計では、動的画像課題を生成するためのGAN(Generative Adrial Networks)、適応的難易度チューニングのための強化学習(RL)、テキストと音声のプロンプトを作成するための大規模言語モデル(LLM)を統合した。
論文 参考訳(メタデータ) (2025-08-20T18:00:08Z) - Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。
このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。
我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文 参考訳(メタデータ) (2025-06-10T16:37:39Z) - IllusionCAPTCHA: A CAPTCHA based on Visual Illusion [14.043017273813227]
我々は、"Human-Easy but AI-Hard"パラダイムを用いた新しいセキュリティメカニズムであるIllusionCAPTCHAを提案する。
その結果,初回試験では86.95%の参加者がCAPTCHAに合格し,他のCAPTCHAシステムよりも優れていた。
論文 参考訳(メタデータ) (2025-02-08T06:03:03Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - D-CAPTCHA++: A Study of Resilience of Deepfake CAPTCHA under Transferable Imperceptible Adversarial Attack [1.7811840395202345]
近年の研究では、実際の通話と偽の通話を区別するチャレンジ応答プロトコルに基づくD-CAPTCHAシステムを提案する。
本研究では,このシステムのレジリエンスについて検討し,より堅牢なD-CAPTCHA++を導入し,フェイクコールに対する防御を行う。
論文 参考訳(メタデータ) (2024-09-11T16:25:02Z) - Oedipus: LLM-enchanced Reasoning CAPTCHA Solver [17.074422329618212]
OedipusはCAPTCHAの自動推論のための革新的なエンドツーエンドフレームワークである。
このフレームワークの中心は、複雑で人間に近いAIタスクを、シンプルでAIに近い一連のステップに分解する、新しい戦略である。
評価の結果,オエディプスはCAPTCHAを効果的に解決し,平均成功率は63.5%であった。
論文 参考訳(メタデータ) (2024-05-13T06:32:57Z) - A Survey of Adversarial CAPTCHAs on its History, Classification and
Generation [69.36242543069123]
本稿では, 逆CAPTCHAの定義を拡張し, 逆CAPTCHAの分類法を提案する。
また, 敵CAPTCHAの防御に使用可能な防御方法も分析し, 敵CAPTCHAに対する潜在的な脅威を示す。
論文 参考訳(メタデータ) (2023-11-22T08:44:58Z) - Robust Text CAPTCHAs Using Adversarial Examples [129.29523847765952]
Robust Text CAPTCHA (RTC) という,ユーザフレンドリーなテキストベースのCAPTCHA生成法を提案する。
第1段階では、前景と背景はランダムにサンプルされたフォントと背景画像で構成される。
第2段階では、CAPTCHAの解法をより妨害するために、高転送可能な逆攻撃をテキストCAPTCHAに適用する。
論文 参考訳(メタデータ) (2021-01-07T11:03:07Z) - Deep-CAPTCHA: a deep learning based CAPTCHA solver for vulnerability
assessment [1.027974860479791]
本研究では,CAPTCHAジェネレータシステムの弱点と脆弱性について検討する。
この目的を達成するために,Deep-CAPTCHAと呼ばれる畳み込みニューラルネットワークを開発した。
我々のネットワークのクラック精度は、数値およびアルファ数値テストデータセットの98.94%と98.31%のハイレートにつながる。
論文 参考訳(メタデータ) (2020-06-15T11:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。