論文の概要: EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.04623v1
- Date: Wed, 07 May 2025 17:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.186371
- Title: EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning
- Title(参考訳): EchoInk-R1:強化学習によるマルチモーダルLDMにおけるオーディオ・ビジュアル推論の探索
- Authors: Zhenghao Xing, Xiaowei Hu, Chi-Wing Fu, Wenhai Wang, Jifeng Dai, Pheng-Ann Heng,
- Abstract要約: MLLM(Multimodal large language model)は、テキスト、視覚、音声にまたがる高度な認識を持つが、構造化されたクロスモーダル推論に苦慮する。
MLLMにおけるそのような推論を強化する強化学習フレームワークであるEchoInk-R1を紹介する。
- 参考スコア(独自算出の注目度): 108.73513190593232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have advanced perception across text, vision, and audio, yet they often struggle with structured cross-modal reasoning, particularly when integrating audio and visual signals. We introduce EchoInk-R1, a reinforcement learning framework that enhances such reasoning in MLLMs. Built upon the Qwen2.5-Omni-7B foundation and optimized with Group Relative Policy Optimization (GRPO), EchoInk-R1 tackles multiple-choice question answering over synchronized audio-image pairs. To enable this, we curate AVQA-R1-6K, a dataset pairing such audio-image inputs with multiple-choice questions derived from OmniInstruct-v1. EchoInk-R1-7B achieves 85.77% accuracy on the validation set, outperforming the base model, which scores 80.53%, using only 562 reinforcement learning steps. Beyond accuracy, EchoInk-R1 demonstrates reflective reasoning by revisiting initial interpretations and refining responses when facing ambiguous multimodal inputs. These results suggest that lightweight reinforcement learning fine-tuning enhances cross-modal reasoning in MLLMs. EchoInk-R1 is the first framework to unify audio, visual, and textual modalities for general open-world reasoning via reinforcement learning. Code and data are publicly released to facilitate further research.
- Abstract(参考訳): MLLM(Multimodal large language model)は、テキスト、視覚、音声にまたがる高度な認識を持つが、特に音声と視覚信号を統合する際には、構造化されたクロスモーダル推論に苦慮することが多い。
MLLMにおけるそのような推論を強化する強化学習フレームワークであるEchoInk-R1を紹介する。
Qwen2.5-Omni-7Bファウンデーションに基づいて構築され、グループ相対ポリシー最適化(GRPO)で最適化されたEchoInk-R1は、同期オーディオイメージペアよりも複数選択の質問応答に取り組む。
これを実現するために、OmniInstruct-v1から派生した複数選択質問とそのような音声画像入力をペアリングするデータセットであるAVQA-R1-6Kをキュレートする。
EchoInk-R1-7Bは85.77%の精度を達成し、562の強化学習ステップのみを使用して80.53%のスコアのベースモデルを上回った。
精度を超えて、EchoInk-R1は、不明瞭なマルチモーダル入力に直面した際の初期解釈を再検討し、応答を精査することで反射的推論を示す。
これらの結果は,軽量強化学習の微調整がMLLMのクロスモーダル推論を促進することを示唆している。
EchoInk-R1は、強化学習による一般的なオープンワールド推論のためのオーディオ、ビジュアル、テキストのモダリティを統一する最初のフレームワークである。
コードとデータは、さらなる研究を促進するために公開されています。
関連論文リスト
- Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering [22.88876323500893]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を大幅に向上させることが示されている。
我々は、音声理解と推論において、特に音声質問応答(AQA)タスクに焦点を当てた一連のRL探索を行う。
実験ではMMAU Test-miniベンチマークで最先端の性能を示し,64.5%の精度を実現した。
論文 参考訳(メタデータ) (2025-03-14T08:43:53Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-09T20:06:45Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。