論文の概要: Understanding In-Context Learning Beyond Transformers: An Investigation of State Space and Hybrid Architectures
- arxiv url: http://arxiv.org/abs/2510.23006v1
- Date: Mon, 27 Oct 2025 04:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.452109
- Title: Understanding In-Context Learning Beyond Transformers: An Investigation of State Space and Hybrid Architectures
- Title(参考訳): トランスフォーマーを越えたインコンテキスト学習の理解:状態空間とハイブリッドアーキテクチャの検討
- Authors: Shenran Wang, Timothy Tin-Long Tse, Jian Zhu,
- Abstract要約: In-context Learning (ICL) の詳細な評価を、最先端変換器、状態空間、およびハイブリッド大言語モデル上で行う。
行動探索と介入に基づく手法を組み合わせることで、異なるアーキテクチャのLCMはタスク性能でも同じように振る舞うことができるが、内部は相変わらず異なることが判明した。
- 参考スコア(独自算出の注目度): 5.063280941429812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We perform in-depth evaluations of in-context learning (ICL) on state-of-the-art transformer, state-space, and hybrid large language models over two categories of knowledge-based ICL tasks. Using a combination of behavioral probing and intervention-based methods, we have discovered that, while LLMs of different architectures can behave similarly in task performance, their internals could remain different. We discover that function vectors (FVs) responsible for ICL are primarily located in the self-attention and Mamba layers, and speculate that Mamba2 uses a different mechanism from FVs to perform ICL. FVs are more important for ICL involving parametric knowledge retrieval, but not for contextual knowledge understanding. Our work contributes to a more nuanced understanding across architectures and task types. Methodologically, our approach also highlights the importance of combining both behavioural and mechanistic analyses to investigate LLM capabilities.
- Abstract(参考訳): In-context Learning (ICL) を知識ベース ICL タスクの2つのカテゴリで,最先端のトランスフォーマー,状態空間,およびハイブリッドな大規模言語モデル上で詳細に評価する。
行動探索と介入に基づく手法を組み合わせることで、異なるアーキテクチャのLCMはタスク性能でも同じように振る舞うことができるが、内部は相変わらず異なることが判明した。
ICLに責任を持つ関数ベクトル(FV)は、主に自己注意層とマンバ層に存在し、Mamba2はFVと異なるメカニズムを用いてICLを実行すると推測する。
FVは、パラメトリック知識検索を含むICLにとってより重要であるが、文脈的知識理解には重要ではない。
私たちの仕事は、アーキテクチャやタスクタイプに対するより微妙な理解に寄与します。
また,本手法は,LLM能力の解明に行動解析と力学解析を併用することの重要性を強調した。
関連論文リスト
- Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation [77.10390725623125]
検索強化世代(RAG)は知識範囲の拡大に広く利用されている。
RAGは、オープンドメインの質問応答のような知識集約的なタスクを約束しているので、複雑なタスクやインテリジェントアシスタントへの幅広い応用は、その実用性をさらに進歩させてきた。
本稿では、RAGが内部(パラメトリック)知識と外部(検索)知識を統合する本質的なメカニズムを体系的に検討する。
論文 参考訳(メタデータ) (2025-05-17T13:13:13Z) - Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [50.53703102032562]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文 参考訳(メタデータ) (2025-05-16T08:50:42Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models [50.34089812436633]
大規模言語モデル(LLM)は自然言語処理を変換しているが、その内部メカニズムはほとんど不透明である。
機械的解釈性は、LLMの内部動作を理解する手段として、研究コミュニティから大きな注目を集めている。
スパースオートエンコーダ(SAE)は、LLM内の複雑な重畳された機能をより解釈可能なコンポーネントに分解する能力のために、将来性のある方法として登場した。
論文 参考訳(メタデータ) (2025-03-07T17:38:00Z) - Learning vs Retrieval: The Role of In-Context Examples in Regression with Large Language Models [18.983753573277596]
そこで本研究では,内部知識の獲得と学習を併用した,文脈内学習機構の評価フレームワークを提案する。
まず,LLMは実世界の回帰問題を解くことができ,LLMが内部知識を取得する程度を,文脈内から学習する程度に測定する実験を設計することができることを示す。
本稿では,これらのメカニズムが様々な要因によって引き起こされる度合いを詳細に分析する。
論文 参考訳(メタデータ) (2024-09-06T14:46:37Z) - Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism [28.751003584429615]
大規模言語モデル(LLM)は、テキスト内学習能力に優れる。
最近の研究は、ICLに関する2つの矛盾する見解を示している。
両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提供する。
論文 参考訳(メタデータ) (2024-07-24T05:26:52Z) - Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。