論文の概要: Hyper-ICL: Attention Calibration with Hyperbolic Anchor Distillation for Multimodal In-Context Learning
- arxiv url: http://arxiv.org/abs/2606.04434v1
- Date: Wed, 03 Jun 2026 04:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.537761
- Title: Hyper-ICL: Attention Calibration with Hyperbolic Anchor Distillation for Multimodal In-Context Learning
- Title(参考訳): Hyper-ICL:マルチモーダルインコンテキスト学習のためのハイパーボリックアンカー蒸留による注意校正
- Authors: Niloufar Alipour Talemi, Hossein Kashiani, Fatemeh Afghah,
- Abstract要約: Hyper-ICLは、デモフリーマルチモーダルICLのためのトレーニングベースのフレームワークである。
推論時にICDを必要とせずに直接デモ効果を再構築する。
バニラICLと既存の最先端の手法の精度と安定性を一貫して改善する。
- 参考スコア(独自算出の注目度): 10.293023172874213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal In-Context Learning (ICL) has emerged as a practical inference paradigm for Multimodal Large Language Models, where a small set of interleaved image-text In-Context Demonstrations (ICDs) conditions the model to solve new tasks. Despite its flexibility, multimodal ICL incurs high inference latency and suffers from instability due to sensitivity to demonstration formatting, ordering, and content. To address these limitations, we propose Hyper-ICL, a lightweight, training-based framework for demonstration-free multimodal ICL that reconstructs demonstration effects directly without requiring ICDs at inference time. Hyper-ICL learns a parameter-efficient low-rank logit-level adapter that calibrates attention distributions to better match demonstration-induced attention redistribution. To capture how demonstration influence varies across queries, we introduce a query-adaptive modulation mechanism that adaptively controls intervention strength at token level across layers and heads based on the current query. Finally, we propose a layer-wise hyperbolic anchor distillation loss that aligns intermediate student features to a demonstration-conditioned teacher via Lorentz geodesic distance. This loss encourages the student to reconstruct the demonstration-query relationships induced by ICDs. Extensive experiments across six different multimodal benchmarks (including VQAv2, OK-VQA, and COCO Caption) demonstrate that Hyper-ICL consistently improves accuracy and stability over vanilla ICL and existing state-of-the-art methods.
- Abstract(参考訳): マルチモーダル・インコンテキスト・ラーニング (ICL) はマルチモーダル・大規模言語モデルのための実践的推論パラダイムとして登場しており、ICD(Interleaved Image-text In-Context Demonstrations) の小さなセットが新しいタスクを解くためにモデルを条件付けしている。
柔軟性にもかかわらず、マルチモーダルICLは高い推論遅延を引き起こし、デモフォーマッティング、オーダリング、コンテントに対する感受性によって不安定に陥る。
これらの制約に対処するために,提案するHyper-ICLは,実演効果を直接再構成する,実演自由なマルチモーダルICLのための軽量なトレーニングベースフレームワークである。
Hyper-ICL は、パラメータ効率の低いローランクロジットレベルのアダプタを学習し、アテンション分布を校正し、デモによるアテンション再分配をより良くする。
実演の影響がクエリによってどのように変化するかを把握するために,現在のクエリに基づいて,トークンレベルでの介入強度を適応的に制御するクエリ適応型変調機構を導入する。
最後に,中間生徒の特徴をローレンツ測地距離を介して実演条件付き教師と整合させる階層的双曲型アンカー蒸留損失を提案する。
この損失は、学生がICDによって引き起こされるデモ-クエリ関係を再構築することを奨励する。
VQAv2、OK-VQA、COCO Captionを含む6つの異なるマルチモーダルベンチマークの広範な実験により、Hyper-ICLはバニラICLおよび既存の最先端手法よりも精度と安定性を一貫して改善することを示した。
関連論文リスト
- Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - UniICL: Systematizing Unified Multimodal In-context Learning through a Capability-Oriented Taxonomy [99.95663439922937]
文脈内学習の有効性は、しばしば単調でタスクに依存しない。
実証の機能的役割を分類する6段階の能力指向分類法を導入する。
大規模コーパスであるUniICL-760Kを構築する。
アーキテクチャの介入として、コンテキスト適応型プロトタイプモジュレータを提案する。
論文 参考訳(メタデータ) (2026-03-25T18:09:33Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Focused Large Language Models are Stable Many-Shot Learners [18.783939647966776]
In-Context Learning (ICL)により、大規模な言語モデル(LLM)がデモから学習することで、迅速なタスク適応を実現することができる。
重要でないコンテンツから注意を逸らすことを避けるために,自明なフィルタリングを行う訓練不要なFocusICLを提案する。
その結果,FocusICLはバニラICLよりも平均5.2%の性能向上を実現し,多くの実演に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-08-26T02:53:24Z) - SSLCL: An Efficient Model-Agnostic Supervised Contrastive Learning
Framework for Emotion Recognition in Conversations [20.856739541819056]
会話における感情認識(ERC)は、自然言語処理コミュニティの中で急速に進化している課題である。
We propose a efficient and model-agnostic SCL framework named Supervised Sample-Label Contrastive Learning with Soft-HGR Maximal correlation (SSLCL)。
浅い多層パーセプトロンを通して、離散ラベルを密度の高い埋め込みに投影することで、ラベル表現を活用する新しい視点を導入する。
論文 参考訳(メタデータ) (2023-10-25T14:41:14Z) - Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2023-07-05T23:26:01Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。