論文の概要: R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.05379v2
- Date: Mon, 10 Mar 2025 07:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 13:36:29.457102
- Title: R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcement Learning
- Title(参考訳): R1-Omni:強化学習による説明可能なOmni-Multimodal感情認識
- Authors: Jiaxing Zhao, Xihan Wei, Liefeng Bo,
- Abstract要約: 本稿では,感情認識の文脈におけるOmni-multimodalな大規模言語モデルに対するReinforcement Learning with Verifiable Reward (RLVR)の最初の応用について述べる。
我々はRLVRを利用してOmniモデルを最適化し、推論能力、感情認識精度、一般化能力の3つの重要な側面でその性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 11.614909833431808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the first application of Reinforcement Learning with Verifiable Reward (RLVR) to an Omni-multimodal large language model in the context of emotion recognition, a task where both visual and audio modalities play crucial roles. We leverage RLVR to optimize the Omni model, significantly enhancing its performance in three key aspects: reasoning capability, emotion recognition accuracy, and generalization ability. The introduction of RLVR not only improves the model's overall performance on in-distribution data but also demonstrates superior robustness when evaluated on out-of-distribution datasets. More importantly, the improved reasoning capability enables clear analysis of the contributions of different modalities, particularly visual and audio information, in the emotion recognition process. This provides valuable insights into the optimization of multimodal large language models.
- Abstract(参考訳): 本研究では,視覚的・音声的モダリティが重要な役割を担うタスクである感情認識の文脈において,Omni-multimodalな大規模言語モデルにRLVR(Reinforcement Learning with Verifiable Reward)を初めて適用する。
我々はRLVRを利用してOmniモデルを最適化し、推論能力、感情認識精度、一般化能力の3つの重要な側面でその性能を大幅に向上させる。
RLVRの導入は、分布内データにおけるモデル全体のパフォーマンスを改善するだけでなく、分布外データセットで評価した場合に優れた堅牢性を示す。
より重要なのは、改良された推論能力により、感情認識プロセスにおける様々なモダリティ、特に視覚的および音声情報の貢献の明確な分析が可能になることである。
これは、マルチモーダルな大言語モデルの最適化に関する貴重な洞察を提供する。
関連論文リスト
- Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion [12.212623921747264]
トランスフォーマーベースのマルチモーダルモデルは、産業規模のレコメンデーション、検索、広告システムで広く使われている。
AL効率とVLMAEを用いた視覚言語モデリングを実現するため,kNNを用いたLatent Space Broadening (LSB)を提案する。
このシステムはプロダクションシステムにデプロイされ、大きなビジネス上の利益をもたらしました。
論文 参考訳(メタデータ) (2025-03-21T21:55:05Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。
提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。
IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-05T07:02:30Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Unveiling Hidden Factors: Explainable AI for Feature Boosting in Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、メンタルヘルス、教育、人間とコンピュータの相互作用など、いくつかの応用分野から注目されている。
本研究では,機械学習モデルの性能向上のための特徴関連性と説明可能性を強調した,SERの反復的特徴増強手法を提案する。
提案手法の有効性をトロントの感情音声セット(TESS)、ベルリンの感情音声データベース(EMO-DB)、Ryersonの感情音声データベース(RAVDESS)、Surrey Audio-Visual Expressed Emotioned Emotion(SAVEE)データセットのSERベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-01T00:39:55Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - MISAR: A Multimodal Instructional System with Augmented Reality [38.79160527414268]
Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。
本研究では,大規模言語モデル(LLM)を用いた視覚・聴覚・文脈の類似化手法を提案する。
論文 参考訳(メタデータ) (2023-10-18T04:15:12Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video
Emotion Recognition Inference [6.279057784373124]
本稿では,高速かつ効果的な認識推定のためのフルマルチモーダル映像合成システム(FV2ES)を設計する。
音響スペクトルに対する階層的アテンション法の適用は、音響モーダルの限られた寄与によって破られる。
整列型マルチモーダル学習モデルへのデータ前処理のさらなる統合により、計算コストとストレージスペースが大幅に削減される。
論文 参考訳(メタデータ) (2022-09-21T08:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。