論文の概要: On the power of foundation models
- arxiv url: http://arxiv.org/abs/2211.16327v1
- Date: Tue, 29 Nov 2022 16:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:10:24.643280
- Title: On the power of foundation models
- Title(参考訳): 基礎モデルの力について
- Authors: Yang Yuan
- Abstract要約: カテゴリー理論がこの問題に答える強力な機械を提供することを示す。
基礎モデルは対象カテゴリから未知のオブジェクトを生成可能であることを示す。
- 参考スコア(独自算出の注目度): 12.134564449202708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With infinitely many high-quality data points, infinite computational power,
an infinitely large foundation model with a perfect training algorithm and
guaranteed zero generalization error on the pretext task, can the model be used
for everything? This question cannot be answered by the existing theory of
representation, optimization or generalization, because the issues they mainly
investigate are assumed to be nonexistent here. In this paper, we show that
category theory provides powerful machinery to answer this question. We have
proved three results. The first one limits the power of prompt-based learning,
saying that the model can solve a downstream task with prompts if and only if
the task is representable. The second one says fine tuning does not have this
limit, as a foundation model with the minimum power (up to symmetry) can
theoretically solve downstream tasks with fine tuning and enough resources. Our
final result can be seen as a new type of generalization theorem, showing that
the foundation model can generate unseen objects from the target category
(e.g., images) using the structural information from the source category (e.g.,
texts). Along the way, we provide a categorical framework for supervised and
self-supervised learning, which might be of independent interest.
- Abstract(参考訳): 無限に多くの高品質なデータポイント、無限の計算力、完璧なトレーニングアルゴリズムを備えた無限大の基礎モデル、プレテキストタスクにおけるゼロ一般化誤差を保証することで、モデルはあらゆることに利用できるだろうか?
この問題は、それらが主に調査する問題はここでは存在しないと仮定されるため、既存の表現理論、最適化理論、一般化理論によっては答えられない。
本稿では,カテゴリ理論がこの問題に答える強力な機械を提供することを示す。
3つの結果が得られた。
最初の1つは、プロンプトベースの学習のパワーを制限し、そのモデルは、そのタスクが表現可能であれば、プロンプトで下流のタスクを解決できる、と言う。
2つ目は、最小限のパワー(対称性まで)を持つ基礎モデルが、微調整と十分なリソースで理論上下流のタスクを解くことができるからである。
我々の最終結果は新たな一般化定理と見なすことができ、基礎モデルが対象のカテゴリ(例えば画像)から、ソースのカテゴリ(例えばテキスト)の構造情報を使って、未発見のオブジェクトを生成できることを示します。
その過程で私たちは,独立した関心を持つ可能性のある,教師付きおよび自己教師型学習のための分類的枠組みを提供する。
関連論文リスト
- Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - Structure Learning and Parameter Estimation for Graphical Models via
Penalized Maximum Likelihood Methods [0.0]
論文では、静的なベイジアンネットワーク(BN)と、その名前が示すように時間成分を持つ連続時間ベイジアンネットワークという2つの異なるタイプのPGMについて考察する。
私たちは、PGMを学ぶための最初のステップである、真の構造を回復することに興味を持っています。
論文 参考訳(メタデータ) (2023-01-30T20:26:13Z) - TopoImb: Toward Topology-level Imbalance in Learning from Graphs [34.25952902469481]
グラフに対して、不均衡はサブクラストポロジー群レベルに存在する可能性が高いと論じる。
この問題に対処するために、新しいフレームワーク手法と設計(トポロジ抽出器1は、明示的なメモリセルを持つ各インスタンスのトポロジグループを自動的に識別する)を提案する。
ノードレベルの分類とグラフレベルの分類の両方を対象タスクとして有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-12-16T19:37:22Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Sublinear Algorithms for Hierarchical Clustering [14.124026862687941]
本稿では,3つの線形計算モデルに基づく大規模グラフの階層クラスタリングについて検討する。
すべてのモデルにおいて階層クラスタリングのためのサブ線形アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-06-15T16:25:27Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Can Pretext-Based Self-Supervised Learning Be Boosted by Downstream
Data? A Theoretical Analysis [12.188482172898656]
pretext-based self-supervised learningは、ラベルのないデータに対して手作りのpretextタスクを通じて意味表現を学ぶことを目的としている。
citetlee 2020predictingは、前提文に基づく自己教師付き学習が条件付き独立(ci)下で下流タスクのサンプル複雑性を効果的に低減できることを証明する。
CI条件を保持するために,学習可能な関数を入力に適用するアイデアを検討する。
論文 参考訳(メタデータ) (2021-03-05T09:53:10Z) - More Is More -- Narrowing the Generalization Gap by Adding
Classification Heads [8.883733362171032]
我々は「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのためのアーキテクチャ拡張を導入する。
私たちのモデルは、トレーニング時間のみに使用でき、予測のために刈り取られ、結果としてベースモデルと同等のアーキテクチャになります。
論文 参考訳(メタデータ) (2021-02-09T16:30:33Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。