論文の概要: Dual-LoRA and Quality-Enhanced Pseudo Replay for Multimodal Continual Food Learning
- arxiv url: http://arxiv.org/abs/2511.13351v1
- Date: Mon, 17 Nov 2025 13:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.226534
- Title: Dual-LoRA and Quality-Enhanced Pseudo Replay for Multimodal Continual Food Learning
- Title(参考訳): マルチモーダル食品学習のためのDual-LoRAと品質向上Pseudoリプレイ
- Authors: Xinlan Wu, Bin Zhu, Feng Han, Pengkun Jiao, Jingjing Chen,
- Abstract要約: 食品分析における既存の大規模マルチモーダルモデル(LMM)は、新しいタスクを学習する際に破滅的な忘れに苦しむ。
本稿では、Dual-LoRAアーキテクチャとQuality-Enhanced Pseudo Replayを統合した、マルチモーダル食品学習のための新しい連続学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.44652104967356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food analysis has become increasingly critical for health-related tasks such as personalized nutrition and chronic disease prevention. However, existing large multimodal models (LMMs) in food analysis suffer from catastrophic forgetting when learning new tasks, requiring costly retraining from scratch. To address this, we propose a novel continual learning framework for multimodal food learning, integrating a Dual-LoRA architecture with Quality-Enhanced Pseudo Replay. We introduce two complementary low-rank adapters for each task: a specialized LoRA that learns task-specific knowledge with orthogonal constraints to previous tasks' subspaces, and a cooperative LoRA that consolidates shared knowledge across tasks via pseudo replay. To improve the reliability of replay data, our Quality-Enhanced Pseudo Replay strategy leverages self-consistency and semantic similarity to reduce hallucinations in generated samples. Experiments on the comprehensive Uni-Food dataset show superior performance in mitigating forgetting, representing the first effective continual learning approach for complex food tasks.
- Abstract(参考訳): 食品分析は、パーソナライズされた栄養や慢性疾患予防などの健康関連業務にますます重要になっている。
しかし、食品分析における既存の大規模マルチモーダルモデル(LMM)は、新しいタスクを学ぶ際に破滅的な忘れをし、スクラッチからコストがかかる。
そこで本研究では,Dual-LoRAアーキテクチャとQuality-Enhanced Pseudo Replayを統合した,マルチモーダル食品学習のための連続学習フレームワークを提案する。
タスクのサブスペースに直交する制約でタスク固有の知識を学習する特殊なLoRAと,タスク間の共有知識を擬似リプレイで統合する協調的なLoRAという,タスク毎に補完的な低ランクアダプタを導入する。
リプレイデータの信頼性を向上させるため,我々のQuality-Enhanced Pseudo Replay戦略では,自己整合性と意味的類似性を活用して,生成したサンプルの幻覚を低減する。
包括的Uni-Foodデータセットの実験は、複雑な食品タスクに対する最初の効果的な継続的学習アプローチとして、忘れを緩和する際の優れた性能を示している。
関連論文リスト
- Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z) - A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
本稿では,マルチタスク学習のための新しい2段階L2Dフレームワークを提案する。
提案手法は2段階のサロゲート損失ファミリーを利用し,Bayes-consistentと$(mathcalG, MathcalR)$-consistentの両方を証明した。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。