Fugu-MT 論文翻訳(概要): On the power of foundation models

論文の概要: On the power of foundation models

arxiv url: http://arxiv.org/abs/2211.16327v1
Date: Tue, 29 Nov 2022 16:10:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-30 15:10:24.643280
Title: On the power of foundation models
Title（参考訳）: 基礎モデルの力について
Authors: Yang Yuan
Abstract要約: カテゴリー理論がこの問題に答える強力な機械を提供することを示す。基礎モデルは対象カテゴリから未知のオブジェクトを生成可能であることを示す。
参考スコア（独自算出の注目度）: 12.134564449202708
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With infinitely many high-quality data points, infinite computational power, an infinitely large foundation model with a perfect training algorithm and guaranteed zero generalization error on the pretext task, can the model be used for everything? This question cannot be answered by the existing theory of representation, optimization or generalization, because the issues they mainly investigate are assumed to be nonexistent here. In this paper, we show that category theory provides powerful machinery to answer this question. We have proved three results. The first one limits the power of prompt-based learning, saying that the model can solve a downstream task with prompts if and only if the task is representable. The second one says fine tuning does not have this limit, as a foundation model with the minimum power (up to symmetry) can theoretically solve downstream tasks with fine tuning and enough resources. Our final result can be seen as a new type of generalization theorem, showing that the foundation model can generate unseen objects from the target category (e.g., images) using the structural information from the source category (e.g., texts). Along the way, we provide a categorical framework for supervised and self-supervised learning, which might be of independent interest.
Abstract（参考訳）: 無限に多くの高品質なデータポイント、無限の計算力、完璧なトレーニングアルゴリズムを備えた無限大の基礎モデル、プレテキストタスクにおけるゼロ一般化誤差を保証することで、モデルはあらゆることに利用できるだろうか? この問題は、それらが主に調査する問題はここでは存在しないと仮定されるため、既存の表現理論、最適化理論、一般化理論によっては答えられない。本稿では,カテゴリ理論がこの問題に答える強力な機械を提供することを示す。 3つの結果が得られた。最初の1つは、プロンプトベースの学習のパワーを制限し、そのモデルは、そのタスクが表現可能であれば、プロンプトで下流のタスクを解決できる、と言う。 2つ目は、最小限のパワー(対称性まで)を持つ基礎モデルが、微調整と十分なリソースで理論上下流のタスクを解くことができるからである。我々の最終結果は新たな一般化定理と見なすことができ、基礎モデルが対象のカテゴリ(例えば画像)から、ソースのカテゴリ(例えばテキスト)の構造情報を使って、未発見のオブジェクトを生成できることを示します。その過程で私たちは,独立した関心を持つ可能性のある,教師付きおよび自己教師型学習のための分類的枠組みを提供する。

関連論文リスト

AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文参考訳（メタデータ） (2025-10-14T02:17:54Z)
On Task Vectors and Gradients [24.021393654093103]
タスクベクトルとタスク損失の勾配との接続を確立することにより、タスク演算の厳密な理論的基礎を提供する。標準勾配勾配下では,1つの微調整のエポックから生成されたタスクベクトルは,学習速度によってスケールされた損失の負の勾配と正確に等価であることを示す。 7つの視覚ベンチマークによる経験的分析は、我々の理論を裏付け、最初のエポック勾配がノルムと方向の両方において微調整軌道を支配していることを示す。
論文参考訳（メタデータ） (2025-08-22T04:16:42Z)
When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文参考訳（メタデータ） (2025-04-15T08:04:39Z)
Task Confusion and Catastrophic Forgetting in Class-Incremental Learning: A Mathematical Framework for Discriminative and Generative Modelings [5.899701834228992]
クラスインクリメンタルラーニング(class-incremental learning、クラス-IL)では、モデルがタスクIDなしでテスト時に見たすべてのクラスを分類しなければなりません。本稿では,クラスILの新しい数学的枠組みを提案し,識別モデルでは最適なクラスILは不可能であることを示す。
論文参考訳（メタデータ） (2024-10-28T06:08:38Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
GraphFM: A Comprehensive Benchmark for Graph Foundation Model [33.157367455390144]
ファンデーション・モデル(FM)は、人工知能システムの開発のための一般的なクラスである。 FMの基礎として自己教師型学習の研究が盛んに行われたが、いくつかの顕著な問題が続いている。下流タスクにおける一般化能力の程度は未だ不明である。これらのモデルが大規模なデータセットにどの程度効果的にスケールできるかは不明だ。
論文参考訳（メタデータ） (2024-06-12T15:10:44Z)
When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文参考訳（メタデータ） (2024-06-11T18:13:46Z)
Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文参考訳（メタデータ） (2023-10-23T04:35:58Z)
Generalization on the Unseen, Logic Reasoning and Degree Curriculum [25.7378861650474]
本稿では,論理的(ブール的)関数の学習について,未確認(GOTU)設定の一般化に着目して考察する。我々は,(S)GDで訓練されたネットワークアーキテクチャがGOTUの下でどのように機能するかを検討する。具体的には、より高次基底要素に最小のフーリエ質量を持つトレーニングデータの補間子を意味する。
論文参考訳（メタデータ） (2023-01-30T17:44:05Z)
Synergies between Disentanglement and Sparsity: Generalization and Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文参考訳（メタデータ） (2022-11-26T21:02:09Z)
Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。 MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。 ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-20T17:58:30Z)
Exploring Strategies for Generalizable Commonsense Reasoning with Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。 2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文参考訳（メタデータ） (2021-09-07T03:13:06Z)
Can Pretext-Based Self-Supervised Learning Be Boosted by Downstream Data? A Theoretical Analysis [12.188482172898656]
pretext-based self-supervised learningは、ラベルのないデータに対して手作りのpretextタスクを通じて意味表現を学ぶことを目的としている。 citetlee 2020predictingは、前提文に基づく自己教師付き学習が条件付き独立(ci)下で下流タスクのサンプル複雑性を効果的に低減できることを証明する。 CI条件を保持するために,学習可能な関数を入力に適用するアイデアを検討する。
論文参考訳（メタデータ） (2021-03-05T09:53:10Z)
Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文参考訳（メタデータ） (2021-01-15T10:23:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。