論文の概要: Towards Generalizable Implicit In-Context Learning with Attention Routing
- arxiv url: http://arxiv.org/abs/2509.22854v1
- Date: Fri, 26 Sep 2025 19:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.912909
- Title: Towards Generalizable Implicit In-Context Learning with Attention Routing
- Title(参考訳): 意図的ルーティングによるインテクスト学習の一般化に向けて
- Authors: Jiaqian Li, Yanshu Li, Ligong Han, Ruixiang Tang, Wenya Wang,
- Abstract要約: In-Context Routing (ICR) は、注意ログレベルにおいて一般化可能なICLパターンを内部化する新しい暗黙のICL手法である。
多様なドメインと複数の大規模言語モデルにまたがる12の実世界のデータセット上でICRを評価した。
- 参考スコア(独自算出の注目度): 32.86419794893806
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Implicit in-context learning (ICL) has newly emerged as a promising paradigm that simulates ICL behaviors in the representation space of Large Language Models (LLMs), aiming to attain few-shot performance at zero-shot cost. However, existing approaches largely rely on injecting shift vectors into residual flows, which are typically constructed from labeled demonstrations or task-specific alignment. Such designs fall short of utilizing the structural mechanisms underlying ICL and suffer from limited generalizability. To address this, we propose In-Context Routing (ICR), a novel implicit ICL method that internalizes generalizable ICL patterns at the attention logits level. It extracts reusable structural directions that emerge during ICL and employs a learnable input-conditioned router to modulate attention logits accordingly, enabling a train-once-and-reuse framework. We evaluate ICR on 12 real-world datasets spanning diverse domains and multiple LLMs. The results show that ICR consistently outperforms prior implicit ICL methods that require task-specific retrieval or training, while demonstrating robust generalization to out-of-domain tasks where existing methods struggle. These findings position ICR to push the boundary of ICL's practical value.
- Abstract(参考訳): Inlicit in-context Learning (ICL) は、大規模言語モデル(LLM)の表現空間におけるICLの振る舞いをシミュレートする有望なパラダイムとして新たに登場した。
しかし、既存のアプローチは主に、ラベル付きデモやタスク固有のアライメントから構築される残留フローにシフトベクトルを注入することに依存している。
このような設計は、ICLの基盤となる構造機構を活用できず、限定的な一般化性に悩まされる。
そこで本研究では,注意ログレベルにおいて一般化可能なICLパターンを内部化する暗黙的ICL手法であるIn-Context Routing(ICR)を提案する。
ICL中に出現する再利用可能な構造方向を抽出し、学習可能な入力条件付きルータを使用して、アテンションログを変調し、トレイン・オンス・アンド・リユース・フレームワークを実現する。
多様な領域と複数のLLMにまたがる12の実世界のデータセット上でICRを評価した。
その結果、ICCはタスク固有の検索やトレーニングを必要とする暗黙のICLメソッドよりも一貫して優れており、既存のメソッドが苦労する領域外タスクへの堅牢な一般化を実証している。
これらの結果から,ICCはICLの実用的価値の境界を画定した。
関連論文リスト
- Surprise Calibration for Better In-Context Learning [6.566285172635043]
In-context Learning (ICL) は、大規模言語モデルにおけるタスク適応のための強力なパラダイムとして登場した。
既存のバイアス校正法は、すべての入力に対して固定クラス事前を適用し、動的ICL設定におけるそれらの有効性を制限している。
本稿では,クラス先行の時間的ダイナミクスをキャプチャする新しいメソッド・サプライズ(SC)を提案する。
論文 参考訳(メタデータ) (2025-06-15T10:04:42Z) - Unlocking In-Context Learning for Natural Datasets Beyond Language Modelling [37.36879079951306]
大規模言語モデル(LLM)は文脈学習(ICL)を示す
ICLは自然言語のタスクやドメインに対して高速な適応を提供するが、テキスト以外のモダリティに対しては、その出現は簡単ではない。
ICLの重要な要素として、トレーニングデータ列における正確なトークン反復を同定する。
我々は、様々なビジュアルデータセットのためのICL機能をアンロックし、より困難な脳波分類タスクを、数ショットの学習システムで実行します。
論文 参考訳(メタデータ) (2025-01-09T09:45:05Z) - Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - Implicit In-context Learning [37.0562059811099]
Inlicit In-context Learning (I2CL)は、ICLの推論コストを最小限の情報損失でゼロショット学習に還元する革新的なパラダイムである。
I2CLはゼロショット推論コストで数ショットレベルのパフォーマンスを実現し、実演例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - TEGEE: Task dEfinition Guided Expert Ensembling for Generalizable and Few-shot Learning [37.09785060896196]
タスク定義を明示的に抽出する textbfTEGEE (Task Definition Guided Expert Ensembling) を提案する。
私たちのフレームワークは2つの3Bモデルアプローチを採用しています。
実験により, TEGEEはより大きなLLaMA2-13Bモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。