Fugu-MT 論文翻訳(概要): Unexpected Benefits of Self-Modeling in Neural Systems

論文の概要: Unexpected Benefits of Self-Modeling in Neural Systems

arxiv url: http://arxiv.org/abs/2407.10188v2
Date: Tue, 23 Jul 2024 21:54:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 18:12:28.435860
Title: Unexpected Benefits of Self-Modeling in Neural Systems
Title（参考訳）: ニューラルネットワークにおける自己モデリングの予期せぬメリット
Authors: Vickram N. Premakumar, Michael Vaiana, Florin Pop, Judd Rosenblatt, Diogo Schwerz de Lucena, Kirsten Ziman, Michael S. A. Graziano,
Abstract要約: 人工ネットワークが内部状態を補助的タスクとして予測することを学ぶと、それらが根本的に変化することを示す。自己モデルタスクをより良く実行するために、ネットワークはよりシンプルで、より正規化され、よりパラメータ効率が良いものにすることを学ぶ。この自己正規化は、最近の機械学習文献で報告されている自己モデルの有用性を説明するのに役立つかもしれない。
参考スコア（独自算出の注目度）: 0.7179624965454197
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-models have been a topic of great interest for decades in studies of human cognition and more recently in machine learning. Yet what benefits do self-models confer? Here we show that when artificial networks learn to predict their internal states as an auxiliary task, they change in a fundamental way. To better perform the self-model task, the network learns to make itself simpler, more regularized, more parameter-efficient, and therefore more amenable to being predictively modeled. To test the hypothesis of self-regularizing through self-modeling, we used a range of network architectures performing three classification tasks across two modalities. In all cases, adding self-modeling caused a significant reduction in network complexity. The reduction was observed in two ways. First, the distribution of weights was narrower when self-modeling was present. Second, a measure of network complexity, the real log canonical threshold (RLCT), was smaller when self-modeling was present. Not only were measures of complexity reduced, but the reduction became more pronounced as greater training weight was placed on the auxiliary task of self-modeling. These results strongly support the hypothesis that self-modeling is more than simply a network learning to predict itself. The learning has a restructuring effect, reducing complexity and increasing parameter efficiency. This self-regularization may help explain some of the benefits of self-models reported in recent machine learning literature, as well as the adaptive value of self-models to biological systems. In particular, these findings may shed light on the possible interaction between the ability to model oneself and the ability to be more easily modeled by others in a social or cooperative context.
Abstract（参考訳）: 自己モデル(Self-model)は、人間の認知の研究や、最近では機械学習において、何十年にもわたって大きな関心を集めてきたトピックである。しかし、自己モデルがもたらすメリットは何か? ここでは、ニューラルネットワークが内部状態を補助的なタスクとして予測することを学ぶと、それらが根本的に変化することを示す。自己モデルタスクをより良く実行するために、ネットワークはよりシンプルで、より規則化され、パラメータ効率が良く、予測的モデリングがより容易になるように学習する。自己モデリングによる自己正規化の仮説をテストするために,2つのモードにまたがる3つの分類タスクを実行するネットワークアーキテクチャを用いた。いずれの場合も、自己モデリングの追加はネットワークの複雑さを大幅に減らした。減少は2つの方法で観察された。第一に、自己モデリングが存在するときの重量分布はより狭かった。第2に,自己モデリングを行う場合,ネットワーク複雑性の尺度である実対数正準しきい値 (RLCT) は小さくなった。複雑さの度合いは低下したばかりでなく、自己モデリングの補助的なタスクにより大きなトレーニング重量が配置されたことにより、より顕著になった。これらの結果は、自己モデリングは単に自己予測のためのネットワーク学習以上のものであるという仮説を強く支持する。学習は再構成効果を持ち、複雑さを減らし、パラメータ効率を向上する。この自己正規化は、最近の機械学習文献で報告されている自己モデルの有用性や、生物学的システムへの自己モデルの適用価値を説明するのに役立つかもしれない。特に、これらの発見は、自分自身をモデル化する能力と、社会的あるいは協力的な文脈において、他人によってより容易にモデル化される能力との相互作用について、光を当てる可能性がある。

関連論文リスト

The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文参考訳（メタデータ） (2025-06-20T10:12:38Z)
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning [0.9016229944691868]
本研究では,自己回帰学習と強化学習による大規模言語モデルの性能向上手法について検討する。モデルに誤った回答をしたとき、より優れた自己回帰を生成するためのインセンティブを与えることで、複雑な検証可能なタスクを解くモデルの能力が向上できることを実証する。
論文参考訳（メタデータ） (2025-05-30T15:49:42Z)
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文参考訳（メタデータ） (2025-01-10T04:35:46Z)
RedTest: Towards Measuring Redundancy in Deep Neural Networks Effectively [10.812755570974929]
深層学習モデル構造における冗長度を測定するために,モデル構造冗長スコア(MSRS)を用いる。 MSRSは、多くの最先端モデルにおける冗長性の問題を明らかにし、評価するのに効果的である。最適なモデル構造を探索するための新しい冗長性認識アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-11-15T14:36:07Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
Cooperative data-driven modeling [44.99833362998488]
メカニクスにおけるデータ駆動モデリングは、最近の機械学習の進歩に基づいて急速に進化している。異なるグループによって作成された新しいデータとモデルが利用可能となり、協調モデリングの可能性が開ける。人工ニューラルネットワークは、破滅的な忘れ、すなわち、新しいタスクでトレーニングされたときに古いタスクを実行する方法を忘れることに苦しむ。これは、新しいタスクに既存のモデルを適用することが、誰かによって訓練された前のタスクのパフォーマンスに影響を与えるため、協力を妨げる。
論文参考訳（メタデータ） (2022-11-23T14:27:25Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文参考訳（メタデータ） (2021-06-06T00:04:49Z)
Distill on the Go: Online knowledge distillation in self-supervised learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文参考訳（メタデータ） (2021-04-20T09:59:23Z)
Fixes That Fail: Self-Defeating Improvements in Machine-Learning Systems [31.702684333839585]
機械学習モデルの改善は,下流モデルの性能を低下させる可能性がある。異なるタイプの絡み合いを識別し、簡単な実験を通して自己退行的改善をいかに生み出すかを示す。また,現実的なステレオベース物体検出システムにおいて自己退避改善が出現することを示す。
論文参考訳（メタデータ） (2021-03-22T12:29:10Z)
Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文参考訳（メタデータ） (2021-01-15T10:23:12Z)
The Self-Simplifying Machine: Exploiting the Structure of Piecewise Linear Neural Networks to Create Interpretable Models [0.0]
本稿では,分類タスクに対するPiecewise Linear Neural Networksの単純化と解釈性向上のための新しい手法を提案する。我々の手法には、トレーニングを伴わずに、訓練された深層ネットワークを使用して、良好なパフォーマンスと単一隠れ層ネットワークを生成する方法が含まれる。これらの手法を用いて,モデル性能の予備的研究およびウェルズ・ファーゴのホームレンディングデータセットのケーススタディを行う。
論文参考訳（メタデータ） (2020-12-02T16:02:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。