Fugu-MT 論文翻訳(概要): Mimic In-Context Learning for Multimodal Tasks

論文の概要: Mimic In-Context Learning for Multimodal Tasks

arxiv url: http://arxiv.org/abs/2504.08851v1
Date: Fri, 11 Apr 2025 03:37:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 05:18:40.588601
Title: Mimic In-Context Learning for Multimodal Tasks
Title（参考訳）: マルチモーダルタスクのためのミミックインコンテキスト学習
Authors: Yuchu Jiang, Jiale Fu, Chenduo Hao, Xinting Hu, Yingzhe Peng, Xin Geng, Xu Yang,
Abstract要約: 大規模マルチモーダルモデル(LMM)におけるインコンテキスト学習(ICL)は重要な推論パラダイムとなっている我々は、ICDから安定かつ一般化可能なシフト効果を学習するために、Mimic In-Context Learning (MimIC)を導入する。 MimICは、軽量学習可能なモジュールをLMMに統合することで、シフト効果をより正確に近似する。
参考スコア（独自算出の注目度）: 34.658098190570314
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, In-context Learning (ICL) has become a significant inference paradigm in Large Multimodal Models (LMMs), utilizing a few in-context demonstrations (ICDs) to prompt LMMs for new tasks. However, the synergistic effects in multimodal data increase the sensitivity of ICL performance to the configurations of ICDs, stimulating the need for a more stable and general mapping function. Mathematically, in Transformer-based models, ICDs act as ``shift vectors'' added to the hidden states of query tokens. Inspired by this, we introduce Mimic In-Context Learning (MimIC) to learn stable and generalizable shift effects from ICDs. Specifically, compared with some previous shift vector-based methods, MimIC more strictly approximates the shift effects by integrating lightweight learnable modules into LMMs with four key enhancements: 1) inserting shift vectors after attention layers, 2) assigning a shift vector to each attention head, 3) making shift magnitude query-dependent, and 4) employing a layer-wise alignment loss. Extensive experiments on two LMMs (Idefics-9b and Idefics2-8b-base) across three multimodal tasks (VQAv2, OK-VQA, Captioning) demonstrate that MimIC outperforms existing shift vector-based methods. The code is available at https://github.com/Kamichanw/MimIC.
Abstract（参考訳）: 近年,大規模マルチモーダルモデル(LMM)において,インコンテキスト学習(ICL)が重要な推論パラダイムとなっている。しかし、マルチモーダルデータにおける相乗効果はICL性能のICD構成に対する感度を高め、より安定で一般的なマッピング関数の必要性を刺激する。数学的には、Transformerベースのモデルでは、ICDはクエリトークンの隠れ状態に '`shift vectors' として追加される。そこで本研究では、ICDから安定かつ一般化可能なシフト効果を学習するために、Mimic In-Context Learning (MimIC)を導入する。特に、いくつかのシフトベクトルベースの手法と比較して、MimICはより厳密にシフト効果を近似し、軽量学習可能なモジュールを4つの重要な拡張でLMMに統合する。 1)注目層にシフトベクトルを挿入すること。 2) 各注目ヘッドにシフトベクトルを割り当てる。 3) 変更等級をクエリ依存にし、 4) 層状アライメント損失を用いた。 3つのマルチモーダルタスク(VQAv2, OK-VQA, Captioning)にまたがる2つのLMM(Idefics-9b, Idefics2-8b-base)の大規模な実験は、MimICが既存のシフトベクトルベースの手法より優れていることを示した。コードはhttps://github.com/Kamichanw/MimICで公開されている。

関連論文リスト

Where and What Matters: Sensitivity-Aware Task Vectors for Many-Shot Multimodal In-Context Learning [57.082554323521464]
そこで我々は,STV(Sensitivity-aware Task Vector insert framework)を提案する。キーとなる洞察は、クエリとコンテキストのペア間でのアクティベーションデルタは一貫した構造パターンを示し、挿入のための信頼できるキューを提供します。識別されたセンシティブ・アウェア・ロケーションに基づいて、アクティベーション値をクラスタリングし、各ロケーションに対して事前クラスタリングされたアクティベーションバンクを構築し、次に強化学習を適用し、最も適したアクティベーション・バンクを選択する。
論文参考訳（メタデータ） (2025-11-11T13:42:13Z)
Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。 MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。 3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文参考訳（メタデータ） (2025-09-02T07:02:29Z)
TEM^3-Learning: Time-Efficient Multimodal Multi-Task Learning for Advanced Assistive Driving [22.22943635900334]
TEM3-Learningは、ドライバーの感情認識、運転者行動認識、交通状況認識、車両行動認識を共同で最適化する新しいフレームワークである。 4つのタスクにまたがって最先端の精度を実現し、600万パラメータ未満の軽量アーキテクチャを維持し、142.32 FPSの推論速度を実現している。
論文参考訳（メタデータ） (2025-06-22T16:12:27Z)
Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models [42.449334670206824]
テキスト由来のステアリングは多様なMLLMアーキテクチャや視覚タスクのマルチモーダル精度を一貫して向上させる。平均シフトはCV-Bench上の空間関係の精度を+7.3%、精度を+3.3%向上させる。その結果、テキストステアリングベクトルは、最小限のデータ収集と計算オーバーヘッドでMLLMのグラウンド化を強化するための強力で効率的なメカニズムとして強調された。
論文参考訳（メタデータ） (2025-05-20T08:23:08Z)
MID-L: Matrix-Interpolated Dropout Layer with Layer-wise Neuron Selection [0.0]
Matrix-Interpolated Dropout Layer (MID-L) は、最も情報性の高いニューロンのみを動的に選択し、活性化する。 MNIST, CIFAR-10, CIFAR-100, SVHN, UCI adult, IMDB の6つのベンチマークによる実験の結果, MID-L は活動ニューロンの55%まで減少することがわかった。
論文参考訳（メタデータ） (2025-05-16T16:29:19Z)
MTL-UE: Learning to Learn Nothing for Multi-Task Learning [98.42358524454731]
本稿では,マルチタスクデータとMLLモデルの非学習可能な例を生成するための,最初の統合フレームワークであるMTL-UEを提案する。各サンプルに対してロバスト性を最適化する代わりに、ラベル先行とクラスワイズ機能埋め込みを導入したジェネレータベースの構造を設計する。さらに、MTL-UEは、クラス間の分離を増加させ、クラス内の分散を抑制するために、タスク内およびタスク間埋め込み正規化を組み込んでいる。
論文参考訳（メタデータ） (2025-05-08T14:26:00Z)
Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文参考訳（メタデータ） (2025-01-06T13:37:13Z)
Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。 IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-24T09:09:20Z)
LIVE: Learnable In-Context Vector for Visual Question Answering [37.89141789981324]
In-Context Learning (ICL) 機能を備えたLMM(Large Multimodal Models) を開発した。 ICLの適用は通常、2つの大きな課題に直面している。1) より多くのICDを使用すると、推論時間が大きく増加し、2) 性能はICDの選択に敏感になる。実演からタスク情報を抽出するLearning In-Context VEctor (LIVE)を提案する。
論文参考訳（メタデータ） (2024-06-19T03:33:45Z)
Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。 System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文参考訳（メタデータ） (2024-03-05T03:37:28Z)
Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。ネガティブな対立や干渉はパフォーマンスに悪影響を及ぼすかもしれない我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文参考訳（メタデータ） (2023-11-05T15:48:29Z)
Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-30T14:28:26Z)
Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文参考訳（メタデータ） (2023-08-10T17:37:49Z)
AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。 AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。 Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文参考訳（メタデータ） (2023-04-17T20:17:44Z)
M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-26T15:40:24Z)
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文参考訳（メタデータ） (2022-07-26T05:19:16Z)
Bridging Multi-Task Learning and Meta-Learning: Towards Efficient Training and Effective Adaptation [19.792537914018933]
マルチタスク学習(MTL)は、複数のタスクを共同で学習することで一般化することを目的としている。現代のメタ学習は、テストフェーズ中にラベルが限定された目に見えないタスクを可能にし、それらに対する迅速な適応を期待する。 MTLは、勾配に基づくメタラーニング(GBML)アルゴリズムのクラスと同じ最適化形式を共有していることを示す。
論文参考訳（メタデータ） (2021-06-16T17:58:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。