論文の概要: Parallel In-context Learning for Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2603.16092v1
- Date: Tue, 17 Mar 2026 03:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.087599
- Title: Parallel In-context Learning for Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルのための並列インコンテキスト学習
- Authors: Shin'ya Yamaguchi, Daiki Chijiwa, Tamao Sakao, Taku Hasegawa,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、実演例を活用することで、新しいタスクに適応するためにマルチモーダル・インコンテキスト・ラーニング(MM-ICL)を用いる。
プラグアンドプレイ推論アルゴリズムであるParallel In-Context Learning(Parallel-ICL)を提案する。
そこで本研究では,Parallel-ICLがフルコンテキストMM-ICLに匹敵する性能を実現し,推論速度を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 17.034369186373162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) employ multi-modal in-context learning (MM-ICL) to adapt to new tasks by leveraging demonstration examples. While increasing the number of demonstrations boosts performance, they incur significant inference latency due to the quadratic computational cost of Transformer attention with respect to the context length. To address this trade-off, we propose Parallel In-Context Learning (Parallel-ICL), a plug-and-play inference algorithm. Parallel-ICL partitions the long demonstration context into multiple shorter, manageable chunks. It processes these chunks in parallel and integrates their predictions at the logit level, using a weighted Product-of-Experts (PoE) ensemble to approximate the full-context output. Guided by ensemble learning theory, we introduce principled strategies for Parallel-ICL: (i) clustering-based context chunking to maximize inter-chunk diversity and (ii) similarity-based context compilation to weight predictions by query relevance. Extensive experiments on VQA, image captioning, and classification benchmarks demonstrate that Parallel-ICL achieves performance comparable to full-context MM-ICL, while significantly improving inference speed. Our work offers an effective solution to the accuracy-efficiency trade-off in MM-ICL, enabling dynamic task adaptation with substantially reduced inference overhead.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、実演例を活用することで、新しいタスクに適応するためにマルチモーダル・インコンテキスト・ラーニング(MM-ICL)を用いる。
デモの回数を増やすことで性能が向上する一方で、コンテクスト長に関してTransformerの注意の2次計算コストによって、大きな推論遅延が発生する。
このトレードオフに対処するため,プラグアンドプレイ推論アルゴリズムであるParallel In-Context Learning (Parallel-ICL)を提案する。
Parallel-ICLは、長いデモコンテキストを複数の短い管理可能なチャンクに分割する。
これらのチャンクを並列に処理し、重み付けされたProduct-of-Experts(PoE)アンサンブルを使用して、その予測をロジットレベルで統合し、フルコンテキスト出力を近似する。
アンサンブル学習理論で導かれたパラレルICLの原則的戦略を紹介する。
(i)クラスタリングに基づくコンテキストチャンキングによるチャンク間多様性の最大化
(II)類似性に基づくコンテキストコンパイルとクエリ関連性による重み予測
VQA、画像キャプション、分類ベンチマークに関する大規模な実験により、Parallel-ICLは完全なコンテキストMM-ICLに匹敵する性能を達成し、推論速度を大幅に改善することを示した。
本研究は,MM-ICLの精度・効率トレードオフを効果的に解決し,推論オーバーヘッドを大幅に低減した動的タスク適応を実現する。
関連論文リスト
- Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding [53.18433310890516]
視覚言語モデルは、伝達可能なセマンティック埋め込みを取得することでマルチモーダル表現学習を進める。
コントラスト学習のウォームアップ段階として機能する圧縮プレトレーニングフェーズであるCoMaを提案する。
論文 参考訳(メタデータ) (2025-11-11T17:23:02Z) - Predicting Task Performance with Context-aware Scaling Laws [56.6850444554434]
本稿では、トレーニング計算と提供されたコンテキストの関数として、下流のパフォーマンスを協調的にモデル化する、単純かつ解釈可能なフレームワークを提案する。
我々は,Llama-2-7BおよびLlama-2-13Bの拡張コンテキスト変種について,観測された下流性能に適合させることで,我々の枠組みを実証的に検証した。
以上の結果から,我々のフレームワークは,配信中のダウンストリーム性能を正確にモデル化し,トレーニング計算において3桁の規模で一般化し,コンテキストの増大とともに性能を確実に外挿することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:35:18Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - MateICL: Mitigating Attention Dispersion in Large-Scale In-Context Learning [0.0]
大規模ICL(MateICL)における注意分散の緩和について紹介する。
ICLの性能向上のために,MateICLはより大規模なコンテキストを効果的に活用できることを示す。
推論戦略の進歩にもかかわらず,MateICLは計算資源に制約のある環境でも有効であることを示す。
論文 参考訳(メタデータ) (2025-05-02T08:45:45Z) - Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - ParaICL: Towards Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - TEGEE: Task dEfinition Guided Expert Ensembling for Generalizable and Few-shot Learning [37.09785060896196]
タスク定義を明示的に抽出する textbfTEGEE (Task Definition Guided Expert Ensembling) を提案する。
私たちのフレームワークは2つの3Bモデルアプローチを採用しています。
実験により, TEGEEはより大きなLLaMA2-13Bモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。