論文の概要: ICL Optimized Fragility
- arxiv url: http://arxiv.org/abs/2510.00300v1
- Date: Tue, 30 Sep 2025 21:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.265818
- Title: ICL Optimized Fragility
- Title(参考訳): ICL最適化の脆弱性
- Authors: Serena Gomez Wannaz,
- Abstract要約: ICLガイドはタスク固有のパフォーマンスを改善することが知られているが、ドメイン間認知能力への影響は未解明のままである。
GPTOSS:20bモデルの6つの変種を用いて、ICLガイドが異なる知識領域の推論にどう影響するかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ICL guides are known to improve task-specific performance, but their impact on cross-domain cognitive abilities remains unexplored. This study examines how ICL guides affect reasoning across different knowledge domains using six variants of the GPT-OSS:20b model: one baseline model and five ICL configurations (simple, chain-of-thought, random, appended text, and symbolic language). The models were subjected to 840 tests spanning general knowledge questions, logic riddles, and a mathematical olympiad problem. Statistical analysis (ANOVA) revealed significant behavioral modifications (p less than 0.001) across ICL variants, demonstrating a phenomenon termed "optimized fragility." ICL models achieved 91%-99% accuracy on general knowledge tasks while showing degraded performance on complex reasoning problems, with accuracy dropping to 10-43% on riddles compared to 43% for the baseline model. Notably, no significant differences emerged on the olympiad problem (p=0.2173), suggesting that complex mathematical reasoning remains unaffected by ICL optimization. These findings indicate that ICL guides create systematic trade-offs between efficiency and reasoning flexibility, with important implications for LLM deployment and AI safety.
- Abstract(参考訳): ICLガイドはタスク固有のパフォーマンスを改善することが知られているが、ドメイン間認知能力への影響は未解明のままである。
GPT-OSS:20bモデルの6つの変種を用いて、ICLガイドが異なる知識領域間での推論にどのように影響するかを検討する: 1つのベースラインモデルと5つのICL構成(単純、連鎖、ランダム、付加テキスト、記号言語)。
モデルは、一般的な知識問題、論理的謎、数学的オリンピック問題にまたがる840の試験を受けた。
統計分析(ANOVA)では、ICLの変種間で大きな行動変化(pは0.001未満)が見られ、「最適化脆弱(Optimized fragility)」と呼ばれる現象が示された。
ICLモデルは、複雑な推論問題では劣化した性能を示しながら、一般的な知識タスクでは91%-99%の精度を達成し、ベースラインモデルでは43%に比べて、リドルでは10-43%まで精度が低下した。
特に、オリンピアード問題(p=0.2173)に有意な差は見られず、複雑な数学的推論はICL最適化の影響を受けていないことを示唆している。
これらの結果は、ICLガイドが効率性と推論の柔軟性の体系的なトレードオフを生み出し、LLMデプロイメントとAI安全性に重要な意味があることを示唆している。
関連論文リスト
- Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning [0.0]
大規模言語モデル(LLM)は孤立したタスクにおいて優れるが、認知的負荷下での推論はいまだに理解されていない。
本稿では,タスク不適切な情報(コンテキスト飽和)とタスク切替による干渉が,性能を低下させる重要なメカニズムであることを示唆する,計算認知負荷の形式的理論を導入する。
論文 参考訳(メタデータ) (2025-09-23T19:36:56Z) - Learning-to-Context Slope: Evaluating In-Context Learning Effectiveness Beyond Performance Illusions [42.80928434779115]
In-context Learning (ICL) は,大規模言語モデルの性能向上に有効な手法として登場した。
現在の評価手法は、信頼性の低下、属性の低下、データ不足のシナリオにおける非現実性に悩まされている。
学習ゲインと文脈関連性の間の傾きをモデル化し,ICLの有効性を定量化する新しい指標であるLCSを提案する。
論文 参考訳(メタデータ) (2025-06-29T08:55:37Z) - More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [51.497338578427915]
大規模言語モデル(LLM)は、パラメータ更新を必要とせずに、数ショットのインコンテキスト学習(ICL)で優れている。
DrICLは、textitDifferentiatedとtextitReweightingの目的によってモデル性能を向上させる新しい最適化手法である。
textitMany-Shot ICL Benchmark (ICL-50) は最大8,000トークンのシーケンスで1から350までのショット数をカバーした50タスクの大規模ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T14:57:08Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - In-context Learning and Gradient Descent Revisited [3.085927389171139]
トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアが得られることを示す。
次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。
本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T21:42:38Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。