論文の概要: Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities
- arxiv url: http://arxiv.org/abs/2505.17862v1
- Date: Fri, 23 May 2025 13:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.093693
- Title: Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities
- Title(参考訳): Daily-Omni: モーダリティを横断する時間的アライメントによるオーディオ・ビジュアル・推論を目指して
- Authors: Ziwei Zhou, Rui Wang, Zuxuan Wu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚および音声のベンチマークにおいて、独立して有望な性能を達成する。
しかし、これらのモデルがクロスモーダル情報を同期的に処理する能力は、まだほとんど解明されていない。
本稿では,(1)日常の生活シナリオの684の動画を多種多様なソースから収録するデイリー・オムニ,(2)自動アノテーション,QA生成,QA最適化を含むデイリー・オムニ生成パイプライン,(3)オープンソースのビジュアル言語モデル(VLM),音声言語モデル(ALM)を利用したトレーニングフリーエージェントであるデイリー・オムニ・アジェントを紹介する。
- 参考スコア(独自算出の注目度): 38.28151377285753
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent Multimodal Large Language Models (MLLMs) achieve promising performance on visual and audio benchmarks independently. However, the ability of these models to process cross-modal information synchronously remains largely unexplored. In this paper, we introduce: 1) Daily-Omni, an Audio-Visual Questioning and Answering benchmark comprising 684 videos of daily life scenarios from diverse sources, rich in both audio and visual information, and featuring 1197 multiple-choice QA pairs across 6 major tasks; 2) Daily-Omni QA Generation Pipeline, which includes automatic annotation, QA generation and QA optimization, significantly improves efficiency for human evaluation and scalability of the benchmark; 3) Daily-Omni-Agent, a training-free agent utilizing open-source Visual Language Model (VLM), Audio Language Model (ALM) and Automatic Speech Recognition (ASR) model to establish a baseline for this benchmark. The results show that current MLLMs still struggle significantly with tasks requiring audio-visual integration, but combining VLMs and ALMs with simple temporal alignment techniques can achieve substantially better performance. Codes and benchmark are available at \href{https://github.com/Lliar-liar/Daily-Omni}{https://github.com/Lliar-liar/Daily-Omni}.
- Abstract(参考訳): 最近のMultimodal Large Language Models (MLLM) は、視覚的および音声的ベンチマークにおいて、独立して有望な性能を達成する。
しかし、これらのモデルがクロスモーダル情報を同期的に処理する能力は、まだほとんど解明されていない。
本稿では,本稿で紹介する。
1)Daily-Omni(デイリー・オムニ)は、様々な情報源から毎日の生活シナリオを684本、オーディオと視覚情報の両方に富み、主要な6つのタスクで1197対の複数選択QAペアを特徴とする、オーディオ・ビジュアル質問と回答のベンチマークである。
2) 自動アノテーション、QA生成、QA最適化を含むデイリーオムニQA生成パイプラインは、ベンチマークの人的評価とスケーラビリティの効率を大幅に改善する。
3)Daily-Omni-Agentは、オープンソースのビジュアル言語モデル(VLM)、オーディオ言語モデル(ALM)、自動音声認識(ASR)モデルを利用して、このベンチマークのベースラインを確立する。
以上の結果から,従来のMLLMは音声・視覚統合を必要とするタスクと相容れないが,VLMとALMを簡易な時間的アライメント技術で組み合わせることで,性能が大幅に向上することが示された。
コードとベンチマークは \href{https://github.com/Lliar-liar/Daily-Omni}{https://github.com/Lliar-liar/Daily-Omni} で公開されている。
関連論文リスト
- AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - OMCAT: Omni Context Aware Transformer [27.674943980306423]
OCTAVは、オーディオとビデオ間のイベント遷移をキャプチャするために設計された、新しいデータセットである。
OMCATはRoTEを活用する強力なモデルであり、時間依存タスクにおける時間的グラウンドリングと計算効率を向上させる。
本稿では,AVQA(Audio-Visual Question Answering)タスクとOCTAVベンチマークを用いて,時間的推論とモーダルアライメントの大幅な向上を示す。
論文 参考訳(メタデータ) (2024-10-15T23:16:28Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。