論文の概要: Words at Play: Benchmarking Audio Pun Understanding in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2603.18678v1
- Date: Thu, 19 Mar 2026 09:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.067276
- Title: Words at Play: Benchmarking Audio Pun Understanding in Large Audio-Language Models
- Title(参考訳): 遊びの言葉:大規模音声言語モデルにおける音節理解のベンチマーク
- Authors: Yuchen Su, Shaoxin Zhong, Yonghua Zhu, Ruofan Wang, Zijian Huang, Qiqi Wang, Na Zhao, Diana Benavides-Prado, Michael Witbrock,
- Abstract要約: 名詞は、ユーモアを生成するために多節語と音声のあいまいさを利用する典型的な言語現象である。
パンク研究の中では、音声はテキストや画像以外の人間のコミュニケーションにおいて中心的な役割を果たす。
本稿では,大規模な音声言語モデル(LALM)を音声句理解で評価するための最初のベンチマークであるAPUN-Benchを紹介する。
- 参考スコア(独自算出の注目度): 16.83865095484227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Puns represent a typical linguistic phenomenon that exploits polysemy and phonetic ambiguity to generate humour, posing unique challenges for natural language understanding. Within pun research, audio plays a central role in human communication except text and images, while datasets and systematic resources for spoken puns remain scarce, leaving this crucial modality largely underexplored. In this paper, we present APUN-Bench, the first benchmark dedicated to evaluating large audio language models (LALMs) on audio pun understanding. Our benchmark contains 4,434 audio samples annotated across three stages: pun recognition, pun word location and pun meaning inference. We conduct a deep analysis of APUN-Bench by systematically evaluating 10 state-of-the-art LALMs, uncovering substantial performance gaps in recognizing, localizing, and interpreting audio puns. This analysis reveals key challenges, such as positional biases in audio pun location and error cases in meaning inference, offering actionable insights for advancing humour-aware audio intelligence.
- Abstract(参考訳): 名詞は、多節語と音声のあいまいさを利用してユーモアを生み出す典型的な言語現象であり、自然言語理解に固有の課題を呈している。
パント研究の中では、音声はテキストや画像以外の人間のコミュニケーションにおいて中心的な役割を担っているが、音声のパントのためのデータセットや体系的なリソースは乏しいままであり、この重要なモダリティはほとんど探索されていない。
本稿では,大規模音声言語モデル (LALM) を音声句理解で評価するための最初のベンチマークであるAPUN-Benchを提案する。
筆者らのベンチマークでは, 音符認識, 句語位置, 句の意味推論の3段階にわたる4,434の音声サンプルを収録した。
我々は,10種類の最先端のLALMを体系的に評価し,音声認識,ローカライズ,解釈における性能ギャップを明らかにすることにより,APUN-Benchの深い分析を行う。
この分析は、音声句の位置バイアスや推論の意味におけるエラーケースといった重要な課題を明らかにし、ユーモアを意識した音声インテリジェンスを前進させるための実用的な洞察を提供する。
関連論文リスト
- SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases [27.340743922132067]
SCENEBenchは、背景音の理解、雑音の局所化、言語間音声の理解、発声者認識という4つの現実世界のカテゴリーにまたがる音声理解の幅広い形態をターゲットにしている。
このベンチマークスイートの目的は、発言される単語だけでなく、その発言の仕方や音声の非音声成分を評価することである。
我々は5つの最先端のLALMを評価し、重要なギャップを見出す: タスクによってパフォーマンスが異なり、いくつかのタスクはランダムな確率以下で実行され、他のタスクは高い精度を達成する。
論文 参考訳(メタデータ) (2026-03-10T16:15:12Z) - Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction [12.216811577733125]
本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。
そこで我々は,中発音声の補聴とバックトラックに対する頑健さを検査する新軸音声編集手法を提案する。
47の話者と1,712のインスタンス固有のルーリックとの452の会話を、オーディオネイティブエージェントとヒューマンインザループパイプラインのハイブリッドを通じてキュレートする。
論文 参考訳(メタデータ) (2025-12-16T19:26:44Z) - ELEGANCE: Efficient LLM Guidance for Audio-Visual Target Speech Extraction [88.41471266579333]
本稿では,大規模言語モデル(LLM)からの言語知識をAV-TSEモデルに組み込む新しいフレームワークであるELEGANCEを提案する。
2つのAV-TSEバックボーン上でのRoBERTa、Qwen3-0.6B、Qwen3-4Bによる総合的な実験は大幅に改善された。
論文 参考訳(メタデータ) (2025-11-09T08:50:11Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - "The Boating Store Had Its Best Sail Ever": Pronunciation-attentive
Contextualized Pun Recognition [80.59427655743092]
そこで我々は,ヒトのユーモアを知覚するために,発音適応型文脈パウン認識(PCPR)を提案する。
PCPRは、周囲の文脈とその対応する音韻記号の関連を捉えることにより、文中の各単語の文脈化された表現を導出する。
その結果,提案手法はパント検出や位置情報タスクにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-29T20:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。