Fugu-MT 論文翻訳(概要): Coreference Resolution without Span Representations

論文の概要: Coreference Resolution without Span Representations

arxiv url: http://arxiv.org/abs/2101.00434v1
Date: Sat, 2 Jan 2021 11:46:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-13 09:51:03.364373
Title: Coreference Resolution without Span Representations
Title（参考訳）: スパン表現のない参照分解能
Authors: Yuval Kirstain, Ori Ram, Omer Levy
Abstract要約: 我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
参考スコア（独自算出の注目度）: 20.84150608402576
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Since the introduction of deep pretrained language models, most task-specific NLP models were reduced to simple lightweight layers. An exception to this trend is the challenging task of coreference resolution, where a sophisticated end-to-end model is appended to a pretrained transformer encoder. While highly effective, the model has a very large memory footprint -- primarily due to dynamically-constructed span and span-pair representations -- which hinders the processing of complete documents and the ability to train on multiple instances in a single batch. We introduce a lightweight coreference model that removes the dependency on span representations, handcrafted features, and heuristics. Our model performs competitively with the current end-to-end model, while being simpler and more efficient.
Abstract（参考訳）: 深く事前訓練された言語モデルの導入以来、ほとんどのタスク固有のNLPモデルは単純な軽量層に縮小された。このトレンドの例外は、高度なエンドツーエンドモデルを事前訓練されたトランスフォーマーエンコーダに追加する、コア参照解決の難しいタスクである。非常に効果的だが、モデルは非常に大きなメモリフットプリントを持ち、主に動的に構成されたスパンとスパンペアの表現によって、完全なドキュメントの処理と単一のバッチで複数のインスタンスをトレーニングする能力を妨げる。我々は,スパン表現や手作り特徴,ヒューリスティックに依存しない軽量なコリファレンスモデルを導入する。我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。

関連論文リスト

Why Train Everything? Tint a Single Layer for Multi-task Model Merging [17.496018757317824]
モデルマージは独立して微調整されたモデルを単一のマルチタスクモデルに統合し、ジョイントトレーニングの柔軟な代替手段を提供する。多くの既存のモデルマージ手法は、追加のタスク固有のコンポーネントを導入し、複雑さを増し、追加の修正を必要とする。単一のレイヤだけを更新することで、モデルマージを改善する軽量かつ高効率なアプローチであるModel Tintingを提案する。
論文参考訳（メタデータ） (2024-12-26T07:42:06Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文参考訳（メタデータ） (2024-04-02T17:58:49Z)
Pre-Trained Model Recommendation for Downstream Fine-tuning [22.343011779348682]
モデル選択は、市販の事前訓練されたモデルをランク付けし、新しいターゲットタスクに最も適したモデルを選択することを目的としている。既存のモデル選択テクニックはスコープ内で制約されることが多く、モデルとタスク間の微妙な関係を見落としてしまう傾向があります。我々は,多種多様な大規模モデルリポジトリを探索する実用的フレームワーク textbfFennec を提案する。
論文参考訳（メタデータ） (2024-03-11T02:24:32Z)
Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文参考訳（メタデータ） (2024-02-07T17:07:41Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Transformer-based Models for Long-Form Document Matching: Challenges and Empirical Analysis [12.269318291685753]
単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
論文参考訳（メタデータ） (2023-02-07T21:51:05Z)
HyperTransformer: Model Generation for Supervised and Semi-Supervised Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文参考訳（メタデータ） (2022-01-11T20:15:35Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。