UniICL: Systematizing Unified Multimodal In-context Learning through a Capability-Oriented Taxonomy
Abstractの概要
本論文は、理解と生成を同時に扱うモデルにおける統一的マルチモーダル・インコンテキスト学習(ICL)を対象とし、ICL性能がデモンストレーションの選択に非常に敏感であり、ショット数の増加に対して非単調にスケーリングし得ることを示している。著者らは、認知的要求に基づいてデモンストレーションの機能的役割を分類する6段階の能力指向タクソノミー(知覚・模倣・概念化・演繹・類推・識別)を導入した。このタクソノミーに基づき、15のサブタスクにわたる766,868件の8ショットエピソードからなるコーパスUniICL-760Kと、ショットスケーリングおよび安定性の制御された評価のための1,250エピソードのベンチマークUniICL-Benchを構築した。さらに、デモンストレーション表現を分離し、コンテキストルーティングを動的に調整することで少数ショット適応を安定化させる軽量なプラグアンドプレイモジュールCAPM(Context-Adaptive Prototype Modulator)を提案している。
新規性
主な新規性は、6段階の認知タクソノミーによる統一的マルチモーダルICLの能力指向的体系化と、大規模なタクソノミーガイド付き学習コーパス(UniICL-760K)およびショットスケーリング挙動とコンテキスト摂動下のロバスト性を明示的に測定するベンチマーク(UniICL-Bench)の組み合わせにある。また、フルバックボーンを変更せずにマルチモーダル少数ショット適応を安定化させる軽量なアーキテクチャ的介入としてCAPMを導入している点も新規である。
成果
UniICL-Benchにおいて、提案手法は報告された統一モデルの中で最高のピーク理解スコア(78.9)およびICL効率(16.9)を達成し、生成側の効率でもトップクラスの性能を示した。安定性実験では、ランダム置換(理解タスクで2.1% vs. 7.1%)、逆順序(1.4% vs. 2.8%)、干渉摂動(1.6% vs. 7.9%)においてBAGELベースラインよりも大幅に小さい性能劣化を示した。Nexus-Gen-V2に対する350件の生成エピソードに関する人間評価では、UniICLが61.3%の総合勝率を獲得した。
論文の注目点
- 本論文は、マルチモーダルICLにおけるデモンストレーションの機能的役割を分類する6段階のタクソノミー(知覚・模倣・概念化・演繹・類推・識別)を導入し、追加のデモンストレーションが知覚主導タスクの性能を低下させる一方で複雑な帰納的タスクを改善するという非単調なスケーリング挙動を明らかにしている。
- UniICL-760K(15サブタスクにわたる766,868エピソード)とUniICL-Bench(制御された摂動プロトコルを持つ1,250エピソード)は、理解と生成の両方にまたがる統一的マルチモーダル・インコンテキスト学習のための初の認知的に構造化された学習コーパスおよび評価スイートを提供している。
- CAPMモジュールは無視できる程度の推論オーバーヘッド(注入深度にわたりレイテンシやVRAMの測定可能な増加なし)で少数ショット性能とロバスト性の両方を向上させ、アブレーション実験によりデータ駆動型ICL学習が主要な性能向上をもたらし、CAPMがその上にさらなる改善を付加することが確認されている。