論文の概要: Exploring BERT Parameter Efficiency on the Stanford Question Answering
Dataset v2.0
- arxiv url: http://arxiv.org/abs/2002.10670v2
- Date: Tue, 3 Mar 2020 05:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:16:42.247132
- Title: Exploring BERT Parameter Efficiency on the Stanford Question Answering
Dataset v2.0
- Title(参考訳): Stanford Question Answering Dataset v2.0におけるBERTパラメータの探索
- Authors: Eric Hulburd
- Abstract要約: 我々はSQuAD2.0(Stanford Question Answering dataset)のバージョン2.0におけるBERT arXiv:1810.04805のパラメータ効率を評価する。
また、SQuAD2.0タスクの最終拡張層としてコンテキスト認識畳み込みフィルタ(CACNN)を用いて実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we explore the parameter efficiency of BERT arXiv:1810.04805 on
version 2.0 of the Stanford Question Answering dataset (SQuAD2.0). We evaluate
the parameter efficiency of BERT while freezing a varying number of final
transformer layers as well as including the adapter layers proposed in
arXiv:1902.00751. Additionally, we experiment with the use of context-aware
convolutional (CACNN) filters, as described in arXiv:1709.08294v3, as a final
augmentation layer for the SQuAD2.0 tasks.
This exploration is motivated in part by arXiv:1907.10597, which made a
compelling case for broadening the evaluation criteria of artificial
intelligence models to include various measures of resource efficiency. While
we do not evaluate these models based on their floating point operation
efficiency as proposed in arXiv:1907.10597, we examine efficiency with respect
to training time, inference time, and total number of model parameters. Our
results largely corroborate those of arXiv:1902.00751 for adapter modules,
while also demonstrating that gains in F1 score from adding context-aware
convolutional filters are not practical due to the increase in training and
inference time.
- Abstract(参考訳): 本稿では,SQuAD2.0(Stanford Question Answering dataset)のバージョン2.0におけるBERT arXiv:1810.04805のパラメータ効率について検討する。
本稿では, BERT のパラメータ効率を arXiv:1902.00751 で提案したアダプタ層を含む最終変圧器層を凍結しながら評価する。
さらに、arXiv:1709.08294v3に記載されているように、文脈認識畳み込みフィルタ(CACNN)をSQuAD2.0タスクの最終的な拡張層として使用する実験を行った。
この調査の動機の一部はarxiv:1907.10597であり、資源効率の様々な尺度を含むために人工知能モデルの評価基準を広げる説得力のあるケースとなった。
arxiv:1907.10597で提案されているような浮動小数点演算効率に基づく評価は行わないが、トレーニング時間、推論時間、モデルパラメータの総数に関して効率性を検討する。
また, 適応モジュールに対するarXiv:1902.00751と, 文脈認識型畳み込みフィルタの追加によるF1スコアのゲインは, トレーニングや推論時間の増加により実用的ではないことを示した。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Information plane and compression-gnostic feedback in quantum machine learning [0.0]
ニューラルネットワークの学習力学を研究するための解析ツールとして,情報平面が提案されている。
モデルが入力データをどれだけ圧縮するかについての知見を学習アルゴリズムの改善に利用することができるかを検討する。
本稿では,変分量子回路を用いたいくつかの分類および回帰タスクについて,提案した学習アルゴリズムをベンチマークする。
論文 参考訳(メタデータ) (2024-11-04T17:38:46Z) - AI on AI: Exploring the Utility of GPT as an Expert Annotator of AI Publications [0.40964539027092917]
我々は、AI研究の機能的定義を導入し、専門家データアノテーションのタスクに基づいて最先端のAIモデルを評価する。
arXivのパブリッシュデータベースを基盤として,GPTモデルのプロンプトエンジニアリングにより,代替の自動化された専門家用アノテーションパイプラインを識別する実験を行った。
比較のために、科学出版物で事前訓練されたトランスフォーマー言語モデルであるSPECTERを微調整し、AI出版物の分類において96%の精度(GPTよりわずか2%高い)を達成する。
論文 参考訳(メタデータ) (2024-03-14T04:43:02Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - MiniALBERT: Model Distillation via Parameter-Efficient Recursive
Transformers [12.432191400869002]
MiniALBERTは、完全にパラメータ化されたLM(BERTなど)の知識をコンパクトな再帰的な学生に変換する技術である。
提案したモデルを,様々な一般的・バイオメディカルなNLPタスクで検証し,その有効性を実証し,最先端および既存のコンパクトモデルと比較した。
論文 参考訳(メタデータ) (2022-10-12T17:23:21Z) - Parameter-Efficient Abstractive Question Answering over Tables or Text [60.86457030988444]
QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。
メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。
パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
論文 参考訳(メタデータ) (2022-04-07T10:56:29Z) - Local Feature Matching with Transformers for low-end devices [0.0]
LoFTR arXiv:2104.00680は、画像対上の適切な局所特徴マッチングを見つけるための効率的なディープラーニング手法である。
本稿では,計算性能が低く,メモリが制限されたデバイスで動作するための最適化について報告する。
論文 参考訳(メタデータ) (2022-02-01T21:30:43Z) - DANNTe: a case study of a turbo-machinery sensor virtualization under
domain shift [0.0]
ドメイン適応(DA)時系列回帰タスク(DANNTe)に取り組むための逆学習法を提案する。
このレグレッションは、ガスタービンに搭載されたセンサーの仮想コピーを構築することを目的としており、特定の状況で欠落する可能性がある物理的なセンサーの代わりに使用される。
ソースドメインでのみトレーニングされたベースラインモデルと比較して,回帰性能が大幅に向上したことを報告した。
論文 参考訳(メタデータ) (2022-01-11T09:24:33Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。