論文の概要: Harnessing Dataset Cartography for Improved Compositional Generalization
in Transformers
- arxiv url: http://arxiv.org/abs/2310.12118v1
- Date: Wed, 18 Oct 2023 17:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:38:08.462738
- Title: Harnessing Dataset Cartography for Improved Compositional Generalization
in Transformers
- Title(参考訳): 変圧器の合成一般化のための高調波データセットカルトグラフィ
- Authors: Osman Batur \.Ince, Tanin Zeraati, Semih Yagcioglu, Yadollah
Yaghoobzadeh, Erkut Erdem, Aykut Erdem
- Abstract要約: 本稿では,データセットの地図化能力を利用した先駆的手法を提案する。
我々は,CFQおよびCOGSデータセット上で最大10%の精度向上を達成し,モデル精度の大幅な向上を実現した。
この結果から,Transformer モデルにおける合成一般化の全能力の解放において,データセット・カートグラフィーが未完成の可能性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 18.290713151610674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks have revolutionized language modeling and excelled in various
downstream tasks. However, the extent to which these models achieve
compositional generalization comparable to human cognitive abilities remains a
topic of debate. While existing approaches in the field have mainly focused on
novel architectures and alternative learning paradigms, we introduce a
pioneering method harnessing the power of dataset cartography (Swayamdipta et
al., 2020). By strategically identifying a subset of compositional
generalization data using this approach, we achieve a remarkable improvement in
model accuracy, yielding enhancements of up to 10% on CFQ and COGS datasets.
Notably, our technique incorporates dataset cartography as a curriculum
learning criterion, eliminating the need for hyperparameter tuning while
consistently achieving superior performance. Our findings highlight the
untapped potential of dataset cartography in unleashing the full capabilities
of compositional generalization within Transformer models. Our code is
available at https://github.com/cyberiada/cartography-for-compositionality.
- Abstract(参考訳): ニューラルネットワークは言語モデリングに革命をもたらし、さまざまな下流タスクに優れています。
しかしながら、これらのモデルが人間の認知能力に匹敵する構成的一般化を達成する程度は議論の的となっている。
この分野の既存のアプローチは、新しいアーキテクチャと代替学習パラダイムに重点を置いているが、データセット地図のパワーを活用した先駆的手法を導入する(Swayamdipta et al., 2020)。
このアプローチを用いて構成一般化データのサブセットを戦略的に同定することにより、モデル精度が大幅に向上し、CFQおよびCOGSデータセット上で最大10%向上する。
特に,データセットの地図化をカリキュラム学習基準として取り入れ,ハイパラメタチューニングの必要性をなくし,一貫して優れたパフォーマンスを実現している。
この結果から,トランスフォーマーモデルにおける合成一般化の全能力の解放における,データセット地図の未完成の可能性が浮き彫りになった。
私たちのコードはhttps://github.com/cyberiada/cartography-for-compositionalityで利用可能です。
関連論文リスト
- Training Data for Large Language Model [2.1178416840822027]
ChatGPTは、事前学習コーパスのパラメータとスケールの点で、以前のモデルを上回った。
ChatGPTは、大量の高品質な人間注釈付きデータを微調整することで、革命的なパフォーマンス向上を実現した。
本稿では,大規模言語モデルの事前学習と微調整の現状を概説する。
論文 参考訳(メタデータ) (2024-11-12T11:09:58Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - ZeroG: Investigating Cross-dataset Zero-shot Transferability in Graphs [36.749959232724514]
ZeroGは、クロスデータセットの一般化を可能にするために設計された新しいフレームワークである。
特徴の不整合、ラベル空間の整合、負の移動といった、固有の課題に対処する。
本稿では,抽出したサブグラフの意味情報と構造情報を豊かにするための,プロンプトベースのサブグラフサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-02-17T09:52:43Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。