論文の概要: AISTAT lab system for DCASE2025 Task6: Language-based audio retrieval
- arxiv url: http://arxiv.org/abs/2509.16649v1
- Date: Sat, 20 Sep 2025 11:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.905521
- Title: AISTAT lab system for DCASE2025 Task6: Language-based audio retrieval
- Title(参考訳): DCASE2025 Task6のためのAISTATラボシステム:言語による音声検索
- Authors: Hyun Jun Kim, Hyeong Yong Choi, Changwon Lim,
- Abstract要約: 本報告では,AISTAT チームが DCASE 2025 Task 6 で言語ベースの音声検索タスクを提出したことを報告する。
提案システムでは、音声とテキストのモダリティを別々に符号化し、その表現をコントラスト学習を用いて整列するデュアルエンコーダアーキテクチャを採用している。
私たちのベストシングルシステムは46.62のmAP@16を達成し、4つのシステムのアンサンブルはClatho開発テストの分割で48.83のmAP@16を達成しました。
- 参考スコア(独自算出の注目度): 11.868064182311462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents the AISTAT team's submission to the language-based audio retrieval task in DCASE 2025 Task 6. Our proposed system employs dual encoder architecture, where audio and text modalities are encoded separately, and their representations are aligned using contrastive learning. Drawing inspiration from methodologies of the previous year's challenge, we implemented a distillation approach and leveraged large language models (LLMs) for effective data augmentation techniques, including back-translation and LLM mix. Additionally, we incorporated clustering to introduce an auxiliary classification task for further finetuning. Our best single system achieved a mAP@16 of 46.62, while an ensemble of four systems reached a mAP@16 of 48.83 on the Clotho development test split.
- Abstract(参考訳): 本報告では,AISTAT チームが DCASE 2025 Task 6 で言語ベースの音声検索タスクを提出したことを報告する。
提案システムでは、音声とテキストのモダリティを別々に符号化し、その表現をコントラスト学習を用いて整列するデュアルエンコーダアーキテクチャを採用している。
前年度の課題の方法論からインスピレーションを得て, 蒸留法を導入し, 大きな言語モデル(LLM)を用いて, バックトランスレーションやLLMミキシングなど, 効果的なデータ拡張技術を開発した。
さらに,クラスタリングを導入して,さらなる微調整を行うための補助的分類タスクを導入した。
私たちのベストシングルシステムは46.62のmAP@16を達成し、4つのシステムのアンサンブルはClatho開発テストの分割で48.83のmAP@16を達成しました。
関連論文リスト
- DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment [94.0709779805955]
DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM)について紹介する。
タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従のために設計されている。
DeSTA2.5-Audioは、幅広いオーディオ言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-03T16:28:25Z) - NTU Speechlab LLM-Based Multilingual ASR System for Interspeech MLC-SLM Challenge 2025 [24.056321452209666]
MLC-SLM(Interspeech 2025 Multilingual Conversational Speech and Language Model)チャレンジ(Task I)のために開発されたNTU音声ラボシステムについて詳述する。
本稿では,多言語自動音声認識システムの包括的分析を行い,モデルアーキテクチャ,データ選択,学習戦略における重要な進歩に注目した。
論文 参考訳(メタデータ) (2025-06-16T10:28:27Z) - Task Arithmetic for Language Expansion in Speech Translation [41.721843322787045]
我々は,タスク算術を用いて既存の1対1のSTシステムから1対1のSTシステムを構築することを目的としている。
MuST-CとCoVoST-2の実験では、BLEUのスコアは最大4.66と4.92で改善され、COMETのゲインは8.87と11.83だった。
論文 参考訳(メタデータ) (2024-09-17T15:25:11Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Performance Improvement of Language-Queried Audio Source Separation Based on Caption Augmentation From Large Language Models for DCASE Challenge 2024 Task 9 [4.328586290529485]
本稿では,言語クエリ音声ソース分離(LASS)タスクに適用した,プロンプトエンジニアリングに基づくテキスト拡張手法を提案する。
学習データセットの各文に対応する複数の字幕を生成するために,大規模言語モデル (LLM) を用いた。
論文 参考訳(メタデータ) (2024-06-17T06:19:14Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - ESPnet-ST IWSLT 2021 Offline Speech Translation System [56.83606198051871]
本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
論文 参考訳(メタデータ) (2021-07-01T17:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。