論文の概要: Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning
- arxiv url: http://arxiv.org/abs/2410.16130v1
- Date: Mon, 21 Oct 2024 15:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:03.251730
- Title: Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning
- Title(参考訳): 大規模聴覚モデルが真に耳を傾けるか?マルチタスクアセスメントとステップワイズオーディオ推論による幻覚に対処する
- Authors: Chun-Yi Kuan, Hung-yi Lee,
- Abstract要約: 大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License:
- Abstract: Recent advancements in large audio-language models (LALMs) have shown impressive capabilities in understanding and reasoning about audio and speech information. However, these models still face challenges, including hallucinating non-existent sound events, misidentifying the order of sound events, and incorrectly attributing sound sources, which undermine their reliability and real-world application. To systematically evaluate these issues, we propose three distinct tasks: object existence, temporal order, and object attribute within audio. These tasks assess the models' comprehension of critical audio information aspects. Our experimental results reveal limitations in these fundamental tasks, underscoring the need for better models in recognizing specific sound events, determining event sequences, and identifying sound sources. To improve performance in these areas, we introduce a multi-turn chain-of-thought approach, which demonstrates significantly improved model performance across the proposed tasks.
- Abstract(参考訳): 大規模音声言語モデル(LALM)の最近の進歩は、音声および音声情報に対する理解と推論において印象的な能力を示している。
しかし、これらのモデルは、既存の音響イベントの幻覚化、音イベントの順序の誤同定、不正確な音源の帰属など、依然として課題に直面している。
これらの問題を体系的に評価するために,音声中のオブジェクト存在,時間順,オブジェクト属性の3つの異なるタスクを提案する。
これらのタスクは、重要な音声情報の側面に関するモデルの理解を評価する。
実験結果から,これらの基本課題の限界が明らかとなり,特定の音響イベントの認識,イベントシーケンスの決定,音源の同定において,より良いモデルの必要性が示唆された。
これらの分野での性能向上を図るために,提案したタスク間のモデル性能を大幅に改善するマルチターンチェーン・オブ・シント手法を提案する。
関連論文リスト
- Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention
Estimation for Non-Profilic Faces [28.245662058349854]
本稿では,音声誘導型粗いヘッドポジションが,非プロデューフィック顔に対する視覚的注意度推定性能をさらに向上させるかどうかを考察する。
オフ・ザ・シェルフ・オブ・ザ・アーティファクト・モデルを用いて、クロスモーダルな弱いスーパービジョンを促進する。
我々のモデルは、タスク固有の推論に利用可能な任意のモダリティを利用することができる。
論文 参考訳(メタデータ) (2022-07-07T02:23:02Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。