論文の概要: SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information
- arxiv url: http://arxiv.org/abs/2505.13237v1
- Date: Mon, 19 May 2025 15:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.692924
- Title: SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information
- Title(参考訳): 桜:音声・音声情報に基づく大規模音声言語モデルのマルチホップ推論について
- Authors: Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee,
- Abstract要約: 大規模音声言語モデル(LALM)は、音声、音声などにおけるマルチモーダル理解によって、大きな言語モデルを拡張する。
音声および音声処理タスクにおける彼らのパフォーマンスは広範囲に研究されているが、その推論能力はいまだに未解明である。
音声情報と音声情報に基づいて,LALMのマルチホップ推論を評価するベンチマークであるSAkuraを紹介する。
その結果,LALMは,関連情報を正しく抽出しても,マルチホップ推論のための音声/音声表現の統合に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large audio-language models (LALMs) extend the large language models with multimodal understanding in speech, audio, etc. While their performances on speech and audio-processing tasks are extensively studied, their reasoning abilities remain underexplored. Particularly, their multi-hop reasoning, the ability to recall and integrate multiple facts, lacks systematic evaluation. Existing benchmarks focus on general speech and audio-processing tasks, conversational abilities, and fairness but overlook this aspect. To bridge this gap, we introduce SAKURA, a benchmark assessing LALMs' multi-hop reasoning based on speech and audio information. Results show that LALMs struggle to integrate speech/audio representations for multi-hop reasoning, even when they extract the relevant information correctly, highlighting a fundamental challenge in multimodal reasoning. Our findings expose a critical limitation in LALMs, offering insights and resources for future research.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は、音声、音声などにおけるマルチモーダル理解によって、大きな言語モデルを拡張する。
音声および音声処理タスクにおける彼らのパフォーマンスは広範囲に研究されているが、その推論能力はいまだに未解明である。
特に、それらのマルチホップ推論、複数の事実をリコールし統合する能力は、体系的な評価を欠いている。
既存のベンチマークでは、一般的な音声および音声処理タスク、会話能力、公平性に重点を置いているが、この点を見落としている。
このギャップを埋めるために,音声情報と音声情報に基づいてLALMのマルチホップ推論を評価するベンチマークであるSAkuraを紹介する。
その結果,LALMは,マルチモーダル推論における根本的な課題を浮き彫りにして,関連情報を正しく抽出しても,マルチホップ推論のための音声/音声表現の統合に苦慮していることがわかった。
今後, LALMの限界が指摘され, 今後の研究に洞察と資源が提供される。
関連論文リスト
- Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、LALMと人間間の音声言語を直接交換する音声対話機能を持つ。
GPT-4oのような最近の進歩により、LALMは人との前後の音声対話を可能にしている。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models [38.64792118903994]
SILLMのジェンダーバイアスを4つの意味的タスクで評価した。
分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-09T15:35:43Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。