論文の概要: Dual-LoRA and Quality-Enhanced Pseudo Replay for Multimodal Continual Food Learning
- arxiv url: http://arxiv.org/abs/2511.13351v1
- Date: Mon, 17 Nov 2025 13:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.226534
- Title: Dual-LoRA and Quality-Enhanced Pseudo Replay for Multimodal Continual Food Learning
- Title(参考訳): マルチモーダル食品学習のためのDual-LoRAと品質向上Pseudoリプレイ
- Authors: Xinlan Wu, Bin Zhu, Feng Han, Pengkun Jiao, Jingjing Chen,
- Abstract要約: 食品分析における既存の大規模マルチモーダルモデル(LMM)は、新しいタスクを学習する際に破滅的な忘れに苦しむ。
本稿では、Dual-LoRAアーキテクチャとQuality-Enhanced Pseudo Replayを統合した、マルチモーダル食品学習のための新しい連続学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.44652104967356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food analysis has become increasingly critical for health-related tasks such as personalized nutrition and chronic disease prevention. However, existing large multimodal models (LMMs) in food analysis suffer from catastrophic forgetting when learning new tasks, requiring costly retraining from scratch. To address this, we propose a novel continual learning framework for multimodal food learning, integrating a Dual-LoRA architecture with Quality-Enhanced Pseudo Replay. We introduce two complementary low-rank adapters for each task: a specialized LoRA that learns task-specific knowledge with orthogonal constraints to previous tasks' subspaces, and a cooperative LoRA that consolidates shared knowledge across tasks via pseudo replay. To improve the reliability of replay data, our Quality-Enhanced Pseudo Replay strategy leverages self-consistency and semantic similarity to reduce hallucinations in generated samples. Experiments on the comprehensive Uni-Food dataset show superior performance in mitigating forgetting, representing the first effective continual learning approach for complex food tasks.
- Abstract(参考訳): 食品分析は、パーソナライズされた栄養や慢性疾患予防などの健康関連業務にますます重要になっている。
しかし、食品分析における既存の大規模マルチモーダルモデル(LMM)は、新しいタスクを学ぶ際に破滅的な忘れをし、スクラッチからコストがかかる。
そこで本研究では,Dual-LoRAアーキテクチャとQuality-Enhanced Pseudo Replayを統合した,マルチモーダル食品学習のための連続学習フレームワークを提案する。
タスクのサブスペースに直交する制約でタスク固有の知識を学習する特殊なLoRAと,タスク間の共有知識を擬似リプレイで統合する協調的なLoRAという,タスク毎に補完的な低ランクアダプタを導入する。
リプレイデータの信頼性を向上させるため,我々のQuality-Enhanced Pseudo Replay戦略では,自己整合性と意味的類似性を活用して,生成したサンプルの幻覚を低減する。
包括的Uni-Foodデータセットの実験は、複雑な食品タスクに対する最初の効果的な継続的学習アプローチとして、忘れを緩和する際の優れた性能を示している。
関連論文リスト
- Provable Effects of Data Replay in Continual Learning: A Feature Learning Perspective [28.881077229756404]
本稿では,連続学習における完全データ再生学習を総合的に分析するための理論的枠組みを提案する。
我々は,信号対雑音比(SNR)を,忘れに影響を及ぼす重要な要因とみなす。
高い信号タスクの優先順位付けは、下信号タスクの学習を容易にするだけでなく、破滅的な忘れの防止にも役立ちます。
論文 参考訳(メタデータ) (2026-02-02T20:21:17Z) - SuRe: Surprise-Driven Prioritised Replay for Continual LLM Learning [14.465381326192757]
2つの障害モードが、選択(リハーサルの方法)と統合(新しい知識を統合する方法)という、このギャップを駆動している、と私たちは主張する。
選択に対処するため,サプライズ優先リプレイ(SuRe)を提案する。
統合に対処するため,高速かつ遅いLoRAアダプタを指数移動平均(EMA)でマージし,長期的知識の安定化を図りながら迅速な適応を実現した。
論文 参考訳(メタデータ) (2025-11-27T12:06:33Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z) - A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
本稿では,マルチタスク学習のための新しい2段階L2Dフレームワークを提案する。
提案手法は2段階のサロゲート損失ファミリーを利用し,Bayes-consistentと$(mathcalG, MathcalR)$-consistentの両方を証明した。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。