論文の概要: On the Power of Foundation Models
- arxiv url: http://arxiv.org/abs/2211.16327v5
- Date: Tue, 22 Oct 2024 01:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:05.664288
- Title: On the Power of Foundation Models
- Title(参考訳): 基礎モデルの力について
- Authors: Yang Yuan,
- Abstract要約: カテゴリー理論がこの問題に答える強力な機械を提供することを示す。
最小要求パワー(対称性まで)を持つ基礎モデルは、プリテキストタスクによって定義されたカテゴリの下流タスクを理論的に解くことができる。
最終結果は新しいタイプの一般化定理と見なすことができ、基礎モデルが対象圏から見えない対象を生成できることが示される。
- 参考スコア(独自算出の注目度): 9.132197704350492
- License:
- Abstract: With infinitely many high-quality data points, infinite computational power, an infinitely large foundation model with a perfect training algorithm and guaranteed zero generalization error on the pretext task, can the model be used for everything? This question cannot be answered by the existing theory of representation, optimization or generalization, because the issues they mainly investigate are assumed to be nonexistent here. In this paper, we show that category theory provides powerful machinery to answer this question. We have proved three results. The first one limits the power of prompt-based learning, saying that the model can solve a downstream task with prompts if and only if the task is representable. The second one says fine tuning does not have this limit, as a foundation model with the minimum required power (up to symmetry) can theoretically solve downstream tasks for the category defined by pretext task, with fine tuning and enough resources. Our final result can be seen as a new type of generalization theorem, showing that the foundation model can generate unseen objects from the target category (e.g., images) using the structural information from the source category (e.g., texts). Along the way, we provide a categorical framework for supervised and self-supervised learning, which might be of independent interest.
- Abstract(参考訳): 無限に多くの高品質なデータポイント、無限の計算力、完璧なトレーニングアルゴリズムを備えた無限大の基礎モデル、プレテキストタスクにおけるゼロ一般化誤差を保証することで、モデルはあらゆることに利用できるだろうか?
この問題は、それらが主に調査する問題はここでは存在しないと仮定されるため、既存の表現理論、最適化理論、一般化理論によっては答えられない。
本稿では,カテゴリ理論がこの問題に答える強力な機械を提供することを示す。
3つの結果が得られた。
1つはプロンプトベースの学習のパワーを制限するもので、モデルが下流のタスクを、そのタスクが表現可能であるかどうかと場合に限り、プロンプトで解決できる、というものである。
第二に、ファインチューニングは、必要最小限のパワー(対称性まで)を持つ基礎モデルとして、プリテキストタスクによって定義されたカテゴリの下流タスクを、微調整と十分なリソースで理論的に解くことができるため、この制限を持たないと言う。
我々の最終結果は新しいタイプの一般化定理として見ることができ、基礎モデルが対象カテゴリ(例えば画像)から対象カテゴリ(例えばテキスト)から構造情報を用いて見えないオブジェクトを生成できることが示される。
その過程で私たちは,独立した関心を持つ可能性のある,教師付きおよび自己教師型学習のための分類的枠組みを提供する。
関連論文リスト
- Task Confusion and Catastrophic Forgetting in Class-Incremental Learning: A Mathematical Framework for Discriminative and Generative Modelings [5.899701834228992]
クラスインクリメンタルラーニング(class-incremental learning、クラス-IL)では、モデルがタスクIDなしでテスト時に見たすべてのクラスを分類しなければなりません。
本稿では,クラスILの新しい数学的枠組みを提案し,識別モデルでは最適なクラスILは不可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T06:08:38Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - GraphFM: A Comprehensive Benchmark for Graph Foundation Model [33.157367455390144]
ファンデーション・モデル(FM)は、人工知能システムの開発のための一般的なクラスである。
FMの基礎として自己教師型学習の研究が盛んに行われたが、いくつかの顕著な問題が続いている。
下流タスクにおける一般化能力の程度は未だ不明である。
これらのモデルが大規模なデータセットにどの程度効果的にスケールできるかは不明だ。
論文 参考訳(メタデータ) (2024-06-12T15:10:44Z) - When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Can Pretext-Based Self-Supervised Learning Be Boosted by Downstream
Data? A Theoretical Analysis [12.188482172898656]
pretext-based self-supervised learningは、ラベルのないデータに対して手作りのpretextタスクを通じて意味表現を学ぶことを目的としている。
citetlee 2020predictingは、前提文に基づく自己教師付き学習が条件付き独立(ci)下で下流タスクのサンプル複雑性を効果的に低減できることを証明する。
CI条件を保持するために,学習可能な関数を入力に適用するアイデアを検討する。
論文 参考訳(メタデータ) (2021-03-05T09:53:10Z) - More Is More -- Narrowing the Generalization Gap by Adding
Classification Heads [8.883733362171032]
我々は「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのためのアーキテクチャ拡張を導入する。
私たちのモデルは、トレーニング時間のみに使用でき、予測のために刈り取られ、結果としてベースモデルと同等のアーキテクチャになります。
論文 参考訳(メタデータ) (2021-02-09T16:30:33Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。