論文の概要: ECM: A Unified Electronic Circuit Model for Explaining the Emergence of In-Context Learning and Chain-of-Thought in Large Language Model
- arxiv url: http://arxiv.org/abs/2502.03325v1
- Date: Wed, 05 Feb 2025 16:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:56.432170
- Title: ECM: A Unified Electronic Circuit Model for Explaining the Emergence of In-Context Learning and Chain-of-Thought in Large Language Model
- Title(参考訳): ECM:大規模言語モデルにおける文脈学習の創発と思考の連鎖を説明する統一電子回路モデル
- Authors: Qiguang Chen, Libo Qin, Jinhao Liu, Dengyun Peng, Jiaqi Wang, Mengkang Hu, Zhi Chen, Wanxiang Che, Ting Liu,
- Abstract要約: In-Context Learning (ICL) と Chain-of-Thought (CoT) は、大規模言語モデルにおいて出現する能力である。
ICLとCoTをよりよく理解するための電子回路モデル(ECM)を提案する。
ECMは, 様々なプロンプト戦略において, LLMの性能を効果的に予測し, 説明する。
- 参考スコア(独自算出の注目度): 64.22300168242221
- License:
- Abstract: Recent advancements in large language models (LLMs) have led to significant successes across various applications, where the most noticeable is to a series of emerging capabilities, particularly in the areas of In-Context Learning (ICL) and Chain-of-Thought (CoT). To better understand and control model performance, many studies have begun investigating the underlying causes of these phenomena and their impact on task outcomes. However, existing explanatory frameworks predominantly focus on isolating and explaining ICL and CoT independently, leading to an incomplete understanding of their combined influence on model performance. To address this gap, we propose the Electronic Circuit Model (ECM), which provides a foundation for developing scalable, learnable policies and improving the management of AI-generated content. Specifically, ECM conceptualizes model behavior as an electronic circuit: ICL is represented as semantic magnetic field to providing an additional voltage following Faraday's Law, while CoT is modeled as series resistors to constrain the model output performance following Ohm's Law. Experimental results demonstrate that the ECM effectively predicts and explains LLM performance across a variety of prompting strategies. Furthermore, we apply ECM to advanced reasoning strategy optimization on a series of tasks, such as the International Olympiad in Informatics (IOI) and the International Mathematical Olympiad (IMO), achieving competitive performance that surpasses nearly 80% of top human competitors.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特にICL(In-Context Learning)やCoT(Chain-of-Thought)といった分野において、様々なアプリケーションで大きな成功を収めている。
モデルの性能をよりよく理解し制御するために、これらの現象の根本原因とそのタスク結果への影響について多くの研究が始まっている。
しかし、既存の説明フレームワークは、主に独立してICLとCoTの分離と説明に重点を置いており、モデルパフォーマンスに対するそれらの複合的な影響を不完全な理解へと繋がった。
このギャップに対処するために、スケーラブルで学習可能なポリシーを開発し、AI生成コンテンツの管理を改善する基盤を提供する電子回路モデル(ECM)を提案する。
具体的には、ECMは電子回路としてモデル挙動を概念化し、ICLはFaradayの法則に従って追加電圧を与える意味磁場として表現され、CoTはオームの法則に従ってモデル出力性能を制限するシリーズ抵抗としてモデル化される。
実験の結果、ECMは様々なプロンプト戦略において、LCMの性能を効果的に予測し、説明できることがわかった。
さらに,国際情報学オリンピック (IOI) や国際数学オリンピック (IMO) といった一連の課題における高度な推論戦略最適化にECMを適用し,トップクラスの競争相手の約80%を超える競争性能を達成する。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Towards Empowerment Gain through Causal Structure Learning in Model-Based RL [35.933469787075]
本稿では,学習効率と制御性を向上させるための新しいフレームワークであるEmpowerment through Causal Learning (ECL)を提案する。
ECLは、まず、収集されたデータに基づいて環境の因果ダイナミクスモデルを訓練する。
そして、探索によって収集されたデータを同時に利用して、因果ダイナミクスモデルをより制御しやすいように更新する。
論文 参考訳(メタデータ) (2025-02-14T10:59:09Z) - Investigating the Zone of Proximal Development of Language Models for In-Context Learning [59.91708683601029]
大規模言語モデル(LLM)の文脈内学習(ICL)の振る舞いを分析するための学習分析フレームワークを提案する。
我々は,各例のモデル性能に基づいて,LLMのZPDを測定することにより,ZPD理論をICLに適用する。
本研究はICLの複雑な多面的動作を明らかにし,この手法の理解と活用に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:36:21Z) - Competition Dynamics Shape Algorithmic Phases of In-Context Learning [10.974593590868533]
In-Context Learning (ICL) は、大規模言語モデルの汎用性を大きく拡張した。
マルコフ連鎖の有限混合をシミュレートする学習を含む合成シーケンスモデリングタスクを提案する。
ファジィ検索と推論のアプローチをユニグラムあるいはビッグラムの統計量と組み合わせた4つの広いアルゴリズムに分解することで、モデルの振る舞いを説明できることを示す。
論文 参考訳(メタデータ) (2024-12-01T23:35:53Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。
連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。
MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。
その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文 参考訳(メタデータ) (2024-08-29T23:22:40Z) - Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning [47.82447085244952]
マルチモーダル ICL では,タスクごとにモダリティが異なることが示される。
タスク固有のモダリティの影響に導かれ、ICL性能を高めるためのモダリティ駆動型実証戦略を推奨する。
論文 参考訳(メタデータ) (2024-07-01T01:57:21Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。