論文の概要: Mimic In-Context Learning for Multimodal Tasks
- arxiv url: http://arxiv.org/abs/2504.08851v1
- Date: Fri, 11 Apr 2025 03:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:39.835662
- Title: Mimic In-Context Learning for Multimodal Tasks
- Title(参考訳): マルチモーダルタスクのためのミミックインコンテキスト学習
- Authors: Yuchu Jiang, Jiale Fu, Chenduo Hao, Xinting Hu, Yingzhe Peng, Xin Geng, Xu Yang,
- Abstract要約: 大規模マルチモーダルモデル(LMM)におけるインコンテキスト学習(ICL)は重要な推論パラダイムとなっている
我々は、ICDから安定かつ一般化可能なシフト効果を学習するために、Mimic In-Context Learning (MimIC)を導入する。
MimICは、軽量学習可能なモジュールをLMMに統合することで、シフト効果をより正確に近似する。
- 参考スコア(独自算出の注目度): 34.658098190570314
- License:
- Abstract: Recently, In-context Learning (ICL) has become a significant inference paradigm in Large Multimodal Models (LMMs), utilizing a few in-context demonstrations (ICDs) to prompt LMMs for new tasks. However, the synergistic effects in multimodal data increase the sensitivity of ICL performance to the configurations of ICDs, stimulating the need for a more stable and general mapping function. Mathematically, in Transformer-based models, ICDs act as ``shift vectors'' added to the hidden states of query tokens. Inspired by this, we introduce Mimic In-Context Learning (MimIC) to learn stable and generalizable shift effects from ICDs. Specifically, compared with some previous shift vector-based methods, MimIC more strictly approximates the shift effects by integrating lightweight learnable modules into LMMs with four key enhancements: 1) inserting shift vectors after attention layers, 2) assigning a shift vector to each attention head, 3) making shift magnitude query-dependent, and 4) employing a layer-wise alignment loss. Extensive experiments on two LMMs (Idefics-9b and Idefics2-8b-base) across three multimodal tasks (VQAv2, OK-VQA, Captioning) demonstrate that MimIC outperforms existing shift vector-based methods. The code is available at https://github.com/Kamichanw/MimIC.
- Abstract(参考訳): 近年,大規模マルチモーダルモデル(LMM)において,インコンテキスト学習(ICL)が重要な推論パラダイムとなっている。
しかし、マルチモーダルデータにおける相乗効果はICL性能のICD構成に対する感度を高め、より安定で一般的なマッピング関数の必要性を刺激する。
数学的には、Transformerベースのモデルでは、ICDはクエリトークンの隠れ状態に '`shift vectors' として追加される。
そこで本研究では、ICDから安定かつ一般化可能なシフト効果を学習するために、Mimic In-Context Learning (MimIC)を導入する。
特に、いくつかのシフトベクトルベースの手法と比較して、MimICはより厳密にシフト効果を近似し、軽量学習可能なモジュールを4つの重要な拡張でLMMに統合する。
1)注目層にシフトベクトルを挿入すること。
2) 各注目ヘッドにシフトベクトルを割り当てる。
3) 変更等級をクエリ依存にし、
4) 層状アライメント損失を用いた。
3つのマルチモーダルタスク(VQAv2, OK-VQA, Captioning)にまたがる2つのLMM(Idefics-9b, Idefics2-8b-base)の大規模な実験は、MimICが既存のシフトベクトルベースの手法より優れていることを示した。
コードはhttps://github.com/Kamichanw/MimICで公開されている。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - LIVE: Learnable In-Context Vector for Visual Question Answering [37.89141789981324]
In-Context Learning (ICL) 機能を備えたLMM(Large Multimodal Models) を開発した。
ICLの適用は通常、2つの大きな課題に直面している。1) より多くのICDを使用すると、推論時間が大きく増加し、2) 性能はICDの選択に敏感になる。
実演からタスク情報を抽出するLearning In-Context VEctor (LIVE)を提案する。
論文 参考訳(メタデータ) (2024-06-19T03:33:45Z) - Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task
Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。
AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。
Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文 参考訳(メタデータ) (2023-04-17T20:17:44Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Bridging Multi-Task Learning and Meta-Learning: Towards Efficient
Training and Effective Adaptation [19.792537914018933]
マルチタスク学習(MTL)は、複数のタスクを共同で学習することで一般化することを目的としている。
現代のメタ学習は、テストフェーズ中にラベルが限定された目に見えないタスクを可能にし、それらに対する迅速な適応を期待する。
MTLは、勾配に基づくメタラーニング(GBML)アルゴリズムのクラスと同じ最適化形式を共有していることを示す。
論文 参考訳(メタデータ) (2021-06-16T17:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。