Fugu-MT 論文翻訳(概要): Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models

論文の概要: Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models

arxiv url: http://arxiv.org/abs/2409.06223v1
Date: Tue, 10 Sep 2024 05:26:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 19:00:01.263706
Title: Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models
Title（参考訳）: 大規模音声言語モデルに対する音声質問応答における時間的理解の促進
Authors: Arvind Krishna Sridhar, Yinyi Guo, Erik Visser,
Abstract要約: 大規模音声言語モデルの出現により,音声質問応答が注目されている。 LALMは一般的な音声理解では優れているが、時間的推論では限られている。本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
参考スコア（独自算出の注目度）: 0.9285295512807729
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The Audio Question Answering task includes audio event classification, audio captioning, and open ended reasoning. Recently, Audio Question Answering has garnered attention due to the advent of Large Audio Language Models. Current literature focuses on constructing LALMs by integrating audio encoders with text only Large Language Models through a projection module. While Large Audio Language Models excel in general audio understanding, they are limited in temporal reasoning which may hinder their commercial applications and on device deployment. This paper addresses these challenges and limitations in audio temporal reasoning. First, we introduce a data augmentation technique for generating reliable audio temporal questions and answers using an LLM. Second, we propose a continued finetuning curriculum learning strategy to specialize in temporal reasoning without compromising performance on finetuned tasks. Finally, we develop a reliable and transparent automated metric, assisted by an LLM, to measure the correlation between Large Audio Language Model responses and ground truth data intelligently. We demonstrate the effectiveness of our proposed techniques using SOTA LALMs on public audio benchmark datasets.
Abstract（参考訳）: 音声質問回答タスクには、音声イベント分類、音声キャプション、オープンエンド推論が含まれる。近年,大規模音声言語モデルの出現により,音声質問応答が注目されている。現在の文献では、プロジェクションモジュールを通じて音声エンコーダとテキストのみの大規模言語モデルを統合することで、LALMの構築に重点を置いている。大規模音声言語モデルは一般的な音声理解において優れているが、時間的推論において制限されており、商用アプリケーションやデバイス展開を妨げている可能性がある。本稿では,音声時間的推論におけるこれらの課題と限界について述べる。まず、LLMを用いて、信頼性の高い音声時間的質問や回答を生成するためのデータ拡張手法を提案する。第2に、微調整タスクの性能を損なうことなく、時間的推論を専門とする微調整カリキュラム学習戦略を提案する。最後に,LLMが支援する信頼性と透過性を備えた自動メトリクスを開発し,大規模音声言語モデル応答と地上真実データとの相関関係をインテリジェントに測定する。公開音声ベンチマークデータセットにおけるSOTA LALMを用いた提案手法の有効性を実証する。

関連論文リスト

Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文参考訳（メタデータ） (2025-06-10T16:37:39Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。 AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文参考訳（メタデータ） (2025-03-06T00:10:26Z)
Audiopedia: Audio QA with Knowledge [0.0]
本稿では,Audiopediaという,Audio Question Answering with Knowledgeという新しいタスクを紹介する。従来のAQA(Audio Question Answering)ベンチマークとは異なり、Audiopediaは知識集約的な質問をターゲットにしている。我々は,これらのサブタスク上で大規模音声言語モデル (LALM) をベンチマークし,準最適性能を観察する。 LALMに適応可能な汎用フレームワークを提案し,知識推論機能を備える。
論文参考訳（メタデータ） (2024-12-29T23:48:35Z)
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。 VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文参考訳（メタデータ） (2024-10-04T11:40:53Z)
Language-based Audio Moment Retrieval [14.227865973426843]
音声モーメント検索(AMR)と呼ばれる新しいタスクを提案し設計する。従来の言語ベースの音声検索タスクとは異なり、AMRはテキストクエリに基づいて、未編集の長い音声の関連モーメントを予測することを目的としている。我々は、モーメントアノテーションを付加した大規模なシミュレーションオーディオ録音からなる専用のデータセット、Clatho-Momentを構築した。次に、AMRタスクの基本的なフレームワークとして、Audio Moment DETR (AM-DETR) と呼ばれるDETRベースのモデルを提案する。
論文参考訳（メタデータ） (2024-09-24T02:24:48Z)
Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文参考訳（メタデータ） (2024-08-17T18:53:17Z)
Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。 Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-07-01T23:32:25Z)
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities [43.23351906406144]
高度な音声理解と複雑な推論能力を備えた汎用大規模音声言語モデル(LALM) GAMAは、カスタムオーディオQ-Formerの機能を含む複数の種類の音声表現とLLMを統合して構築する。 GAMAを大規模オーディオ言語データセットで微調整し、音声理解機能で拡張します。
論文参考訳（メタデータ） (2024-06-17T17:31:01Z)
Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文参考訳（メタデータ） (2024-06-12T16:51:54Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文参考訳（メタデータ） (2023-11-12T06:56:14Z)
Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文参考訳（メタデータ） (2023-08-09T16:09:44Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文参考訳（メタデータ） (2023-05-29T10:41:28Z)
AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文参考訳（メタデータ） (2023-04-25T17:05:38Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。