論文の概要: Model Successor Functions
- arxiv url: http://arxiv.org/abs/2502.00197v1
- Date: Fri, 31 Jan 2025 22:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:53.439464
- Title: Model Successor Functions
- Title(参考訳): モデル継承関数
- Authors: Yingshan Chang, Yonatan Bisk,
- Abstract要約: 帰納的一般化では、トレーニングデータがより容易な側にあるのに対して、テストデータがより難しい側にあると仮定されることが多い。
この研究は、モデル後継の概念に焦点を当てた形式化を提供する。
次に、モデル継承者の学習に向けて、確立された手法を適用するための方向性を概説する。
- 参考スコア(独自算出の注目度): 31.25792515137003
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The notion of generalization has moved away from the classical one defined in statistical learning theory towards an emphasis on out-of-domain generalization (OODG). Recently, there is a growing focus on inductive generalization, where a progression of difficulty implicitly governs the direction of domain shifts. In inductive generalization, it is often assumed that the training data lie in the easier side, while the testing data lie in the harder side. The challenge is that training data are always finite, but a learner is expected to infer an inductive principle that could be applied in an unbounded manner. This emerging regime has appeared in the literature under different names, such as length/logical/algorithmic extrapolation, but a formal definition is lacking. This work provides such a formalization that centers on the concept of model successors. Then we outline directions to adapt well-established techniques towards the learning of model successors. This work calls for restructuring of the research discussion around inductive generalization from fragmented task-centric communities to a more unified effort, focused on universal properties of learning and computation.
- Abstract(参考訳): 一般化の概念は、統計学習理論で定義された古典的な概念から、領域外一般化(OODG)に重点を置くものへと移行した。
近年は帰納的一般化に焦点が当てられ、困難さの進行がドメインシフトの方向を暗黙的に支配するようになっている。
帰納的一般化では、トレーニングデータがより容易な側にあるのに対して、テストデータがより難しい側にあると仮定されることが多い。
課題は、トレーニングデータは常に有限であるが、学習者は非有界な方法で適用可能な帰納的原理を推論することが期待されている。
この新たな体制は、長さ/論理/アルゴリズムの外挿など、異なる名前で文献に現れてきたが、正式な定義は欠落している。
この研究は、モデル後継の概念に焦点を当てた形式化を提供する。
次に、モデル継承者の学習に向けて、確立された手法を適用するための方向性を概説する。
この研究は、分断されたタスク中心のコミュニティから、学習と計算の普遍的な性質に焦点を当てたより統一された取り組みへの帰納的一般化に関する研究の議論を再構築することを要求する。
関連論文リスト
- The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。
予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。
本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文 参考訳(メタデータ) (2025-02-24T03:01:03Z) - Rethinking Generalizability and Discriminability of Self-Supervised Learning from Evolutionary Game Theory Perspective [43.510860711231544]
最先端の自己管理手法は、一般化可能性や差別性を高める傾向にあるが、同時にはならない。
本稿では,強化学習の進歩を生かし,EGTの一般指導を共同で活用する自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-30T17:20:23Z) - Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity [84.12126298229866]
命令チューニング中のゼロショット一般化は非常に早い時期に行われることを示す。
また、「タスク」の制約を伴わずに、命令チューニング中に非常によく似た、きめ細かなトレーニングデータに遭遇することで、より一般化できることを示す。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - Class-wise Generalization Error: an Information-Theoretic Analysis [22.877440350595222]
本稿では,各クラスの一般化性能を定量化するクラス一般化誤差について検討する。
我々は、異なるニューラルネットワークにおける提案した境界を実験的に検証し、それらが複雑なクラス一般化エラーの振る舞いを正確に捉えていることを示す。
論文 参考訳(メタデータ) (2024-01-05T17:05:14Z) - Inverse Decision Modeling: Learning Interpretable Representations of
Behavior [72.80902932543474]
我々は,逆決定モデルに関する表現的,統一的な視点を開拓する。
これを逆問題(記述モデルとして)の形式化に用います。
この構造が(有界な)有理性の学習(解釈可能な)表現を可能にする方法について説明する。
論文 参考訳(メタデータ) (2023-10-28T05:05:01Z) - The Ideal Continual Learner: An Agent That Never Forgets [11.172382217477129]
連続学習の目的は、学習者に順次提示される複数の学習課題を解決するモデルを見つけることである。
この設定における重要な課題は、学習者が新しいタスクを学ぶ際に、前のタスクをどう解決するかを忘れることである。
本稿では,建設による破滅的な忘れ込みを避けるために,ICL(Ideal Continual Learner)と呼ばれる新たな連続学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-29T18:06:14Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。
私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。
この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:36:32Z) - Explaining generalization in deep learning: progress and fundamental
limits [8.299945169799795]
論文の前半では、勾配勾配による深層ネットワークのトレーニングがネットワークの容量を暗黙的に制御する方法を実証的に研究する。
次に、パラメータ数に対する依存性を改善した一様収束に基づく一般化境界を、データ依存の em から導出する。
論文の最後の部分では、未ラベルデータを用いて一般化を推定する経験的手法を導入する。
論文 参考訳(メタデータ) (2021-10-17T21:17:30Z) - Distinguishing rule- and exemplar-based generalization in learning
systems [10.396761067379195]
特徴レベルバイアスと例え-vs-ルールバイアスの2つの異なる帰納バイアスについて検討した。
ほとんどの標準ニューラルネットワークモデルは、模範に基づく外挿に対する正当性を持っている。
データ拡張、公平性、体系的一般化に関する研究において、これらの発見がもたらす意味について論じる。
論文 参考訳(メタデータ) (2021-10-08T18:37:59Z) - Target Languages (vs. Inductive Biases) for Learning to Act and Plan [13.820550902006078]
私は、ニューラルアーキテクチャのバイアスから表現が現れるのではなく、既知のセマンティクスを持つ特定のターゲット言語で学習される、異なる学習アプローチを明確に表現します。
論文と講演の目的は、これらのアイデアを明確化し、対象言語の設計が不可欠である広い文脈に配置し、それらを行動と計画の学習の文脈で説明することである。
論文 参考訳(メタデータ) (2021-09-15T10:24:13Z) - Towards Out-Of-Distribution Generalization: A Survey [46.329995334444156]
アウト・オブ・ディストリビューションの一般化は、機械学習研究の新たなトピックである。
本論文は,OODの一般化に関する総合的,体系的な最初のレビューである。
論文 参考訳(メタデータ) (2021-08-31T05:28:42Z) - A Self-Supervised Framework for Function Learning and Extrapolation [1.9374999427973014]
本稿では,学習者が一般化を支援する表現を取得するためのフレームワークを提案する。
得られた表現は、教師なし時系列学習において、他のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-14T12:41:03Z) - Recent advances in deep learning theory [104.01582662336256]
本稿では,近年のディープラーニング理論の進歩をレビューし,整理する。
文献は,(1)深層学習の一般化可能性を分析する複雑性とキャパシティに基づくアプローチ,(2)勾配降下とその変種をモデル化するための微分方程式とその力学系,(3)動的システムの軌道を駆動する損失景観の幾何学的構造,(5)ネットワークアーキテクチャにおけるいくつかの特別な構造の理論的基礎,の6つのグループに分類される。
論文 参考訳(メタデータ) (2020-12-20T14:16:41Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。