論文の概要: HIFICL: High-Fidelity In-Context Learning for Multimodal Tasks
- arxiv url: http://arxiv.org/abs/2603.12760v1
- Date: Fri, 13 Mar 2026 08:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.989639
- Title: HIFICL: High-Fidelity In-Context Learning for Multimodal Tasks
- Title(参考訳): HIFICL:マルチモーダルタスクのための高忠実なインコンテキスト学習
- Authors: Xiaoyu Li, Yuhang Liu, Zheng Luo, Xuanshuo Kang, Fangqi Lou, Xiaohua Wu, Zihan Xiong,
- Abstract要約: 我々は、ICLメカニズムをより忠実にモデル化するために、HIFICL(High-Fidelity In-Context Learning)を導入する。
HIFICLは,1)学習可能なコンテキストとして機能する"仮想キーと値のペア"のセット,2)安定かつ規則化されたトレーニングのための低ランク因数分解,3)単純なエンドツーエンドトレーニングの3つの主要コンポーネントから構成される。
- 参考スコア(独自算出の注目度): 6.981025167004503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-Context Learning (ICL) is a significant paradigm for Large Multimodal Models (LMMs), using a few in-context demonstrations (ICDs) for new task adaptation. However, its performance is sensitive to demonstration configurations and computationally expensive. Mathematically, the influence of these demonstrations can be decomposed into a dynamic mixture of the standard attention output and the context values. Current approximation methods simplify this process by learning a "shift vector". Inspired by the exact decomposition, we introduce High-Fidelity In-Context Learning (HIFICL) to more faithfully model the ICL mechanism. HIFICL consists of three key components: 1) a set of "virtual key-value pairs" to act as a learnable context, 2) a low-rank factorization for stable and regularized training, and 3) a simple end-to-end training objective. From another perspective, this mechanism constitutes a form of context-aware Parameter-Efficient Fine-Tuning (PEFT). Extensive experiments show that HiFICL consistently outperforms existing approximation methods on several multimodal benchmarks. The code is available at https://github.com/bbbandari/HiFICL.
- Abstract(参考訳): In-Context Learning (ICL) はLMM(Large Multimodal Models)の重要なパラダイムであり、新しいタスク適応のためにいくつかのコンテキスト内デモ(ICD)を使用する。
しかし、その性能はデモ構成に敏感であり、計算コストも高い。
数学的には、これらのデモンストレーションの影響を標準的な注意出力と文脈値の動的混合に分解することができる。
現在の近似法は「シフトベクトル」を学習することでこのプロセスを単純化する。
ICLのメカニズムをより忠実にモデル化するために,ハイフィデリティ・インコンテキスト・ラーニング(HIFICL)を導入する。
HIFICLは3つのキーコンポーネントから構成される。
1)学習可能なコンテキストとして機能する「仮想キー値対」のセット。
2【安定・正規化訓練のための低ランク要因化】
3) 単純なエンドツーエンドのトレーニング目標。
別の観点からは、このメカニズムは文脈認識パラメーター-効率的な微調整(PEFT)の形式を構成する。
大規模な実験により、HiFICLは複数のマルチモーダルベンチマークにおいて既存の近似法より一貫して優れていることが示された。
コードはhttps://github.com/bbbandari/HiFICLで公開されている。
関連論文リスト
- Dissecting Multimodal In-Context Learning: Modality Asymmetries and Circuit Dynamics in modern Transformers [59.472505916020936]
コンテクスト内の例から,トランスフォーマーがモダリティ間で情報を関連づけることを学ぶ方法について検討する。
現代変圧器におけるユニモーダルICLの原理を再考する。
メカニスティック分析では、両方の設定は、ラベルをマッチするインコンテキストの例からコピーするインダクションスタイルのメカニズムに依存している。
論文 参考訳(メタデータ) (2026-01-28T17:37:28Z) - Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文 参考訳(メタデータ) (2025-05-26T10:49:44Z) - Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations [0.0]
LVLM(Large Vision-Language Models)の重要な機能として,マルチモーダルインコンテキスト学習(ICL)が登場している。
我々はマルチモーダル ICL の根底にあるコアメカニズムに光を当て、ロバストなインコンテキストのデモシーケンスを構成する上で、タスクマッピングが重要な要素であると認識した。
タスク認識機能を備えた軽量で強力なデコーダのみの変換器である textitSabER を提案する。
論文 参考訳(メタデータ) (2025-03-05T16:33:10Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Asynchronous Multi-Model Dynamic Federated Learning over Wireless
Networks: Theory, Modeling, and Optimization [20.741776617129208]
分散機械学習(ML)の鍵となる技術として、フェデレートラーニング(FL)が登場した。
まず、システムパラメータが学習性能に与える影響を捉えるために、長方形のスケジューリングステップと関数を定式化する。
我々の分析は、デバイストレーニング変数と非同期スケジューリング決定の協調的影響に光を当てている。
論文 参考訳(メタデータ) (2023-05-22T21:39:38Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。