論文の概要: ECM: A Unified Electronic Circuit Model for Explaining the Emergence of In-Context Learning and Chain-of-Thought in Large Language Model
- arxiv url: http://arxiv.org/abs/2502.03325v1
- Date: Wed, 05 Feb 2025 16:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 16:28:51.168727
- Title: ECM: A Unified Electronic Circuit Model for Explaining the Emergence of In-Context Learning and Chain-of-Thought in Large Language Model
- Title(参考訳): ECM:大規模言語モデルにおける文脈学習の創発と思考の連鎖を説明する統一電子回路モデル
- Authors: Qiguang Chen, Libo Qin, Jinhao Liu, Dengyun Peng, Jiaqi Wang, Mengkang Hu, Zhi Chen, Wanxiang Che, Ting Liu,
- Abstract要約: In-Context Learning (ICL) と Chain-of-Thought (CoT) は、大規模言語モデルにおいて出現する能力である。
ICLとCoTをよりよく理解するための電子回路モデル(ECM)を提案する。
ECMは, 様々なプロンプト戦略において, LLMの性能を効果的に予測し, 説明する。
- 参考スコア(独自算出の注目度): 64.22300168242221
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in large language models (LLMs) have led to significant successes across various applications, where the most noticeable is to a series of emerging capabilities, particularly in the areas of In-Context Learning (ICL) and Chain-of-Thought (CoT). To better understand and control model performance, many studies have begun investigating the underlying causes of these phenomena and their impact on task outcomes. However, existing explanatory frameworks predominantly focus on isolating and explaining ICL and CoT independently, leading to an incomplete understanding of their combined influence on model performance. To address this gap, we propose the Electronic Circuit Model (ECM), which provides a foundation for developing scalable, learnable policies and improving the management of AI-generated content. Specifically, ECM conceptualizes model behavior as an electronic circuit: ICL is represented as semantic magnetic field to providing an additional voltage following Faraday's Law, while CoT is modeled as series resistors to constrain the model output performance following Ohm's Law. Experimental results demonstrate that the ECM effectively predicts and explains LLM performance across a variety of prompting strategies. Furthermore, we apply ECM to advanced reasoning strategy optimization on a series of tasks, such as the International Olympiad in Informatics (IOI) and the International Mathematical Olympiad (IMO), achieving competitive performance that surpasses nearly 80% of top human competitors.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特にICL(In-Context Learning)やCoT(Chain-of-Thought)といった分野において、様々なアプリケーションで大きな成功を収めている。
モデルの性能をよりよく理解し制御するために、これらの現象の根本原因とそのタスク結果への影響について多くの研究が始まっている。
しかし、既存の説明フレームワークは、主に独立してICLとCoTの分離と説明に重点を置いており、モデルパフォーマンスに対するそれらの複合的な影響を不完全な理解へと繋がった。
このギャップに対処するために、スケーラブルで学習可能なポリシーを開発し、AI生成コンテンツの管理を改善する基盤を提供する電子回路モデル(ECM)を提案する。
具体的には、ECMは電子回路としてモデル挙動を概念化し、ICLはFaradayの法則に従って追加電圧を与える意味磁場として表現され、CoTはオームの法則に従ってモデル出力性能を制限するシリーズ抵抗としてモデル化される。
実験の結果、ECMは様々なプロンプト戦略において、LCMの性能を効果的に予測し、説明できることがわかった。
さらに,国際情報学オリンピック (IOI) や国際数学オリンピック (IMO) といった一連の課題における高度な推論戦略最適化にECMを適用し,トップクラスの競争相手の約80%を超える競争性能を達成する。
関連論文リスト
- Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - LLM-based AI Agent for Sizing of Analog and Mixed Signal Circuit [2.979579757819132]
大規模言語モデル (LLM) は様々な分野において大きな可能性を証明している。
本研究では,AMS回路設計のためのLLMベースのAIエージェントを提案する。
論文 参考訳(メタデータ) (2025-04-14T22:18:16Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。
広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Large Cognition Model: Towards Pretrained EEG Foundation Model [0.0]
多様な脳波データセットと下流タスクをまたいだ一般化を目的としたトランスフォーマーベース基盤モデルを提案する。
本研究は, 神経科学, パーソナライズドメディカル, およびBCI技術の進歩を促進するための, 事前学習型脳波基盤モデルの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-11T04:28:10Z) - Investigating the Zone of Proximal Development of Language Models for In-Context Learning [59.91708683601029]
大規模言語モデル(LLM)の文脈内学習(ICL)の振る舞いを分析するための学習分析フレームワークを提案する。
我々は,各例のモデル性能に基づいて,LLMのZPDを測定することにより,ZPD理論をICLに適用する。
本研究はICLの複雑な多面的動作を明らかにし,この手法の理解と活用に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:36:21Z) - Competition Dynamics Shape Algorithmic Phases of In-Context Learning [10.974593590868533]
In-Context Learning (ICL) は、大規模言語モデルの汎用性を大きく拡張した。
マルコフ連鎖の有限混合をシミュレートする学習を含む合成シーケンスモデリングタスクを提案する。
ファジィ検索と推論のアプローチをユニグラムあるいはビッグラムの統計量と組み合わせた4つの広いアルゴリズムに分解することで、モデルの振る舞いを説明できることを示す。
論文 参考訳(メタデータ) (2024-12-01T23:35:53Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。
連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。
MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。
その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文 参考訳(メタデータ) (2024-08-29T23:22:40Z) - Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning [47.82447085244952]
マルチモーダル ICL では,タスクごとにモダリティが異なることが示される。
タスク固有のモダリティの影響に導かれ、ICL性能を高めるためのモダリティ駆動型実証戦略を推奨する。
論文 参考訳(メタデータ) (2024-07-01T01:57:21Z) - Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。