論文の概要: In-Context Fixation: When Demonstrated Labels Override Semantics in Few-Shot Classification
- arxiv url: http://arxiv.org/abs/2605.08295v1
- Date: Fri, 08 May 2026 10:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.541907
- Title: In-Context Fixation: When Demonstrated Labels Override Semantics in Few-Shot Classification
- Title(参考訳): In-Context Fixation:Few-Shot分類におけるセマンティックを上書きするラベル
- Authors: Ming Liu,
- Abstract要約: その結果, 同種ラベルは意味論的に有効なものであっても, 6つのモデルで12%の精度で崩壊することがわかった。
モデルはラベル位置を占めるトークンを、徹底的な回答語彙として扱う。
- 参考スコア(独自算出の注目度): 4.738949927143789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While random demonstration labels barely hurt in-context learning (Min et al., 2022), we show that homogeneous labels--even semantically valid ones--collapse accuracy to <=12% across six models (Pythia, Llama, Qwen; 0.8B--8B) and four tasks. The trigger is label-slot content: the model treats tokens occupying the label position as an exhaustive answer vocabulary, with homogeneity as the maximally collapsed case. A novel set-level fixation finding confirms this: when demonstrations carry varied nonsense tokens from {foo,bar,vex,nit,orb}, the model places 42--67% of probability on the demonstrated set while P(dog) remains below 0.2%. This is inconsistent with latent-concept Bayesian accounts (Xie et al., 2022) and reveals that ICL output is constrained vocabulary retrieval--the model binds its output to the demonstrated token inventory regardless of semantic plausibility. The effect generalizes to 4-way classification (0% accuracy across three models, 1B--8B) and multi-token verbalizers ("very positive"), where we decompose fixation into format-level (template adoption) and content-level (polarity override) components that are experimentally dissociable. Mechanistically, per-item paired activation patching on Pythia-1B recovers 98.4% of the gap (95% CI [84%, 112%]), localizing fixation to a layer-7-centered circuit (rank 2/560, 99.8th percentile; 4-fold CV mean 103%). Cross-architecture logit lens on Llama-3.2-1B replicates the encode-then-override trajectory with causal confirmation (top-5 layers: 89% recovery).
- Abstract(参考訳): ランダムな実演ラベルは文脈内学習 (Min et al , 2022) をほとんど損なわないが, 意味論的に有効なものであっても, 6つのモデル (Pythia, Llama, Qwen, 0.8B--8B) と4つのタスクで比較すると, 一致精度は<=12%であった。
モデルでは、ラベル位置を占めるトークンを、最大限に崩壊したケースとして均一性とともに、徹底的な回答語彙として扱う。
デモが {foo,bar,vex,nit,orb} から様々なナンセンストークンを運ぶと、P(dog) が 0.2% 以下である間に、モデルが示される集合に確率の 42--67% を配置する。
これは潜在概念ベイズ的説明(Xie et al , 2022)と矛盾せず、ICLの出力が語彙検索に制約があることを明らかにする。
この効果は4方向の分類(3つのモデルで0%の精度、1B--8B)と多目的動詞化器(非常にポジティブ)に一般化され、そこでは固定を実験的に解離可能な形式レベル(テンプレート導入)とコンテンツレベル(極性オーバーライド)に分解する。
メカニカルには、Pythia-1B上でペアリングされた活性化パッチは98.4%のギャップ(95% CI [84%, 112%])を回復し、レイヤ7中心の回路(2/560、99.8パーセント、4倍CVは103%)に固定する。
Llama-3.2-1B上のクロスアーキテクチャ・ロジットレンズは、エンコード・テンオーバライド軌道を因果確認で再現する(トップ5層:89%回復)。
関連論文リスト
- Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection [0.0]
マルチターンプロンプトインジェクションは既知の攻撃経路に従う。
この攻撃経路はモデルの残差ストリームにアクティベーションレベルシグネチャを残していることを示す。
論文 参考訳(メタデータ) (2026-04-30T17:16:33Z) - FregeLogic at SemEval 2026 Task 11: A Hybrid Neuro-Symbolic Architecture for Content-Robust Syllogistic Validity Prediction [0.0017904458681854366]
SemEval-2026タスク11(Subtask 1)のハイブリッド型ニューロシンボリックシステムであるFregeLogicについて紹介する。
本システムでは,2.85のコンテンツ効果と41.88の総合スコアで94.3%の精度を実現した。
本研究は,アンサンブルコンセンサスが最も低い形式的手法を適用した目的のニューロシンボリックな統合が,本課題で用いられる精度+コンテント・エフェクト・エフェクト・メトリクスの組合せを改善することを示唆している。
論文 参考訳(メタデータ) (2026-04-20T14:31:00Z) - Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning [0.0]
大規模な言語モデルがどのようにタスクのアイデンティティを数発のデモからエンコードしているかを理解することは、機械的解釈可能性において中心的なオープンな問題である。
以前の作業では、リニアプローブを使用してタスク表現をローカライズし、特定のレイヤで高い分類精度を報告していた。
正確さを求めることは因果的重要性を予測するのに完全に失敗する。
論文 参考訳(メタデータ) (2026-04-10T14:49:07Z) - The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
論文 参考訳(メタデータ) (2025-12-22T14:42:31Z) - DiCaP: Distribution-Calibrated Pseudo-labeling for Semi-Supervised Multi-Label Learning [83.94574004953346]
半教師付きマルチラベル学習は、ラベルのないデータを活用してモデルの性能を向上させることを目的としている。
既存の手法の多くは、その品質に関わらず、すべての擬似ラベルに等しい重みを割り当てる。
擬似ラベル重みの校正に後部精度を推定する正当性認識フレームワークDiCaPを提案する。
論文 参考訳(メタデータ) (2025-11-25T11:55:02Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - FixMatch: Simplifying Semi-Supervised Learning with Consistency and
Confidence [93.91751021370638]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルの性能を向上させる効果的な手段を提供する。
本稿では、整合正則化と擬似ラベル付けという2つの共通SSL手法の単純な組み合わせのパワーを実証する。
筆者らのアルゴリズムであるFixMatchは、まず、弱拡張未ラベル画像上のモデルの予測を用いて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2020-01-21T18:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。