論文の概要: Perturbed examples reveal invariances shared by language models
- arxiv url: http://arxiv.org/abs/2311.04166v1
- Date: Tue, 7 Nov 2023 17:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:36:05.061832
- Title: Perturbed examples reveal invariances shared by language models
- Title(参考訳): 言語モデルで共有される不変性を示す摂動例
- Authors: Ruchit Rawal, Mariya Toneva
- Abstract要約: 本稿では,2つの自然言語処理モデルを比較するための新しいフレームワークを提案する。
私たちのフレームワークは、モデルの変化が複数の明確に定義された言語機能にどのように影響するかについて、多くの洞察を提供します。
- 参考スコア(独自算出の注目度): 9.505335696550347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An explosion of work in language is leading to ever-increasing numbers of
available natural language processing models, with little understanding of how
new models compare to better-understood models. One major reason for this
difficulty is saturating benchmark datasets, which may not reflect well
differences in model performance in the wild. In this work, we propose a novel
framework for comparing two natural language processing models by revealing
their shared invariance to interpretable input perturbations that are designed
to target a specific linguistic capability (e.g., Synonym-Invariance,
Typo-Invariance). Via experiments on models from within the same and across
different architecture families, this framework offers a number of insights
about how changes in models (e.g., distillation, increase in size, amount of
pre-training) affect multiple well-defined linguistic capabilities.
Furthermore, we also demonstrate how our framework can enable evaluation of the
invariances shared between models that are available as commercial black-box
APIs (e.g., InstructGPT family) and models that are relatively better
understood (e.g., GPT-2). Across several experiments, we observe that large
language models share many of the invariances encoded by models of various
sizes, whereas the invariances encoded by large language models are only shared
by other large models. Possessing a wide variety of invariances may be a key
reason for the recent successes of large language models, and our framework can
shed light on the types of invariances that are retained by or emerge in new
models.
- Abstract(参考訳): 言語における作業の急増により、利用可能な自然言語処理モデルが増え続けており、新しいモデルがより理解されたモデルと比較する方法についてはほとんど理解されていない。
この難しさの主な理由は、ベンチマークデータセットの飽和化である。
本研究では、特定の言語機能(例えば、Synonym-Invariance、Typo-Invariance)をターゲットにした、解釈可能な入力摂動に対する共用不変性を明らかにすることによって、2つの自然言語処理モデルを比較する新しいフレームワークを提案する。
同一および異なるアーキテクチャファミリ内のモデルに関する実験を通じて、このフレームワークは、モデルの変更(蒸留、サイズの増加、事前学習の量など)が複数のよく定義された言語機能にどのように影響するかに関する多くの洞察を提供する。
さらに、我々のフレームワークは、商用のブラックボックスAPI(例えば、InstructGPTファミリ)として利用可能なモデルと、比較的よく理解されたモデル(例えば、GPT-2)の間で共有される不変性の評価を可能にする。
いくつかの実験で、大きな言語モデルは様々なサイズのモデルによって符号化された多くの不変性を共有しているのに対し、大きな言語モデルによって符号化された不変性は他の大きなモデルによってのみ共有されている。
多様な不変性を評価することは、近年の大規模言語モデルの成功の鍵となる理由であり、我々のフレームワークは、新しいモデルで保持または出現する不変性の種類に光を当てることができる。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and
Evaluation [35.72916406365469]
数ショットの微調整とコンテキスト内学習の一般化と,データセットへの挑戦を比較した。
この結果から,微調整言語モデルがドメイン外をうまく一般化できることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T13:55:17Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Internet-augmented language models through few-shot prompting for
open-domain question answering [6.573232954655063]
私たちは、大規模な言語モデルによって提供されるユニークないくつかのショット機能を活用して、いくつかの課題を克服しています。
Google Searchを使って、ウェブから返された情報に対して言語モデルを条件付けるために、数発のプロンプトを使用します。
ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答において、類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-10T02:24:14Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。