論文の概要: UniICL: Systematizing Unified Multimodal In-context Learning through a Capability-Oriented Taxonomy
- arxiv url: http://arxiv.org/abs/2603.24690v1
- Date: Wed, 25 Mar 2026 18:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.924992
- Title: UniICL: Systematizing Unified Multimodal In-context Learning through a Capability-Oriented Taxonomy
- Title(参考訳): UniICL: 機能指向型分類学による統一型マルチモーダルインコンテキスト学習の体系化
- Authors: Yicheng Xu, Jiangning Zhang, Zhucun Xue, Teng Hu, Ran Yi, Xiaobin Hu, Yong Liu, Dacheng Tao,
- Abstract要約: 文脈内学習の有効性は、しばしば単調でタスクに依存しない。
実証の機能的役割を分類する6段階の能力指向分類法を導入する。
大規模コーパスであるUniICL-760Kを構築する。
アーキテクチャの介入として、コンテキスト適応型プロトタイプモジュレータを提案する。
- 参考スコア(独自算出の注目度): 99.95663439922937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context Learning enables training-free adaptation via demonstrations but remains highly sensitive to example selection and formatting. In unified multimodal models spanning understanding and generation, this sensitivity is exacerbated by cross-modal interference and varying cognitive demands. Consequently, In-context Learning efficacy is often non-monotonic and highly task-dependent. To diagnose these behaviors, we introduce a six-level capability-oriented taxonomy that categorizes the functional role of demonstrations from basic perception to high-order discernment. Guided by this cognitive framework, we construct UniICL-760K, a large-scale corpus featuring curated 8-shot In-context Learning episodes across 15 subtasks, alongside UniICL-Bench for rigorous, controlled evaluation. As an architectural intervention to stabilize few-shot adaptation, we propose the Context-Adaptive Prototype Modulator, a lightweight, plug-and-play module. Evaluations on UniICL-Bench show that our approach yields highly competitive unified results, outperforming larger-parameter multimodal large language model baselines on most understanding In-context Learning tasks. Data and code will be available soon at https://github.com/xuyicheng-zju/UniICL.
- Abstract(参考訳): インコンテキスト学習は、デモンストレーションによるトレーニング不要な適応を可能にするが、サンプルの選択やフォーマットには非常に敏感である。
理解と生成にまたがる統合マルチモーダルモデルでは、この感度は、相互モーダル干渉と様々な認知的要求によって悪化する。
その結果、文脈内学習の有効性は非単調でタスクに依存しないことが多い。
これらの振る舞いを診断するために,実証の機能的役割を基本認識から高次識別に分類する6段階の能力指向分類法を導入する。
この認知フレームワークによって導かれたUniICL-760Kは、厳密で制御された評価のために、15のサブタスクで8ショットのインコンテクスト学習エピソードをキュレートした大規模コーパスである。
少数ショット適応を安定化するためのアーキテクチャ的介入として,軽量なプラグイン・アンド・プレイモジュールであるContext-Adaptive Prototype Modulatorを提案する。
UniICL-Bench による評価から,本手法はより大規模なマルチモーダル・大規模言語モデルにおいて,多くの理解型インコンテクスト学習タスクをベースラインとして,高い競争力を持つ結果をもたらすことが示唆された。
データとコードは近々https://github.com/xuyicheng-zju/UniICL.comで公開される。
関連論文リスト
- HIFICL: High-Fidelity In-Context Learning for Multimodal Tasks [6.981025167004503]
我々は、ICLメカニズムをより忠実にモデル化するために、HIFICL(High-Fidelity In-Context Learning)を導入する。
HIFICLは,1)学習可能なコンテキストとして機能する"仮想キーと値のペア"のセット,2)安定かつ規則化されたトレーニングのための低ランク因数分解,3)単純なエンドツーエンドトレーニングの3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2026-03-13T08:03:35Z) - Schema for In-Context Learning [0.7850388075652649]
In-context Learning (ICL) は、実演例に条件付けすることで、言語モデルが新しいタスクに適応できるようにする。
CONTEXT(SA-ICL)におけるSCHEMAの導入
この枠組みは, 先行事例から, 推論過程に対する認知の構成要素の表現を抽出する。
SA-ICLは、単一の実演例が高品質である場合、パフォーマンスを36.19パーセントまで継続的に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-14T21:00:15Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - ELICIT: LLM Augmentation via External In-Context Capability [16.237679215248196]
algは2つのモジュールからなるフレームワークで、タスクベクトルを効果的に保存し再利用する。
algは、モデル機能の適応的な適用を可能にするプラグイン・アンド・プレイパフォーマンス・ブースターとして機能する。
論文 参考訳(メタデータ) (2024-10-12T03:19:06Z) - Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2023-07-05T23:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。