論文の概要: Mind the Gap! Static and Interactive Evaluations of Large Audio Models
- arxiv url: http://arxiv.org/abs/2502.15919v1
- Date: Fri, 21 Feb 2025 20:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:52:47.161348
- Title: Mind the Gap! Static and Interactive Evaluations of Large Audio Models
- Title(参考訳): マインド・ザ・ギャップ! 大規模音響モデルの静的・インタラクティブ評価
- Authors: Minzhi Li, William Barr Held, Michael J Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang,
- Abstract要約: 大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
- 参考スコア(独自算出の注目度): 55.87220295533817
- License:
- Abstract: As AI chatbots become ubiquitous, voice interaction presents a compelling way to enable rapid, high-bandwidth communication for both semantic and social signals. This has driven research into Large Audio Models (LAMs) to power voice-native experiences. However, aligning LAM development with user goals requires a clear understanding of user needs and preferences to establish reliable progress metrics. This study addresses these challenges by introducing an interactive approach to evaluate LAMs and collecting 7,500 LAM interactions from 484 participants. Through topic modeling of user queries, we identify primary use cases for audio interfaces. We then analyze user preference rankings and qualitative feedback to determine which models best align with user needs. Finally, we evaluate how static benchmarks predict interactive performance - our analysis reveals no individual benchmark strongly correlates with interactive results ($\tau \leq 0.33$ for all benchmarks). While combining multiple coarse-grained features yields modest predictive power ($R^2$=$0.30$), only two out of twenty datasets on spoken question answering and age prediction show significantly positive correlations. This suggests a clear need to develop LAM evaluations that better correlate with user preferences.
- Abstract(参考訳): AIチャットボットがユビキタス化するにつれ、音声インタラクションは、セマンティック信号とソーシャル信号の両方に対して、高速で帯域幅の通信を可能にする魅力的な方法を提供する。
これにより、Large Audio Models (LAMs) の研究が推進され、音声ネイティブエクスペリエンスが向上した。
しかしながら、LAM開発とユーザ目標を一致させるには、信頼性の高い進捗メトリクスを確立するために、ユーザニーズと好みを明確に理解する必要があります。
本研究では、484人の参加者から7,500人のLAMインタラクションを収集する対話的アプローチを導入することで,これらの課題に対処する。
ユーザクエリのトピックモデリングを通じて、音声インタフェースの主要なユースケースを特定する。
次に、ユーザの好みのランキングと質的なフィードバックを分析し、どのモデルがユーザーのニーズに最も適しているかを判断する。
最後に、静的なベンチマークがインタラクティブなパフォーマンスを予測する方法を評価する。我々の分析では、個々のベンチマークがインタラクティブな結果と強く相関することはない(すべてのベンチマークに対して\tau \leq 0.33$)。
複数の粗粒度の特徴を組み合わせると、控えめな予測力(R^2$=0.30$)が得られるが、発話された質問応答と年齢予測のデータセットのうち2つだけが、有意な正の相関を示した。
このことは、ユーザの好みと相関するLAM評価を開発する必要があることを示唆している。
関連論文リスト
- Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.90783662117936]
クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。
近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。
マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文 参考訳(メタデータ) (2024-11-22T15:29:05Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - TETRIS: Towards Exploring the Robustness of Interactive Segmentation [39.1981941213761]
対話型セグメンテーションモデルに対するホワイトボックス逆攻撃において, 直接最適化により極端なユーザ入力を見つける手法を提案する。
本報告では,多数のモデルについて広範囲な評価を行った結果について報告する。
論文 参考訳(メタデータ) (2024-02-09T01:36:21Z) - Temporal Interest Network for User Response Prediction [33.95334897033641]
本稿では,行動と対象間の意味的・時間的相関を同時に捉えるための時間的関心ネットワーク(TIN)を提案する。
TINは2023年10月から運用に成功し、WeChat Momentsのトラフィックに対応している。
論文 参考訳(メタデータ) (2023-08-15T05:48:44Z) - Improving Open-Domain Dialogue Evaluation with a Causal Inference Model [8.625569782672663]
明示的な満足度評価はユーザーから引き出すことができるが、ユーザーは質問された時に評価を提供しないことが多い。
専門家によるポストホック評価は代替案だが、これらは高価で複雑だ。
本稿では,オープンドメイン対話のエキスパート評価とユーザ評価の両方を予測する自動手法の開発について検討する。
論文 参考訳(メタデータ) (2023-01-31T02:31:42Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Large-scale Hybrid Approach for Predicting User Satisfaction with
Conversational Agents [28.668681892786264]
ユーザの満足度を測定することは難しい課題であり、大規模な会話エージェントシステムの開発において重要な要素である。
人間のアノテーションに基づくアプローチは簡単に制御できるが、スケールするのは難しい。
新たなアプローチとして,会話エージェントシステムに埋め込まれたフィードバック誘導システムを通じて,ユーザの直接的なフィードバックを収集する手法がある。
論文 参考訳(メタデータ) (2020-05-29T16:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。