論文の概要: Coreference Resolution without Span Representations
- arxiv url: http://arxiv.org/abs/2101.00434v1
- Date: Sat, 2 Jan 2021 11:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-04-13 09:51:03.364373
- Title: Coreference Resolution without Span Representations
- Title(参考訳): スパン表現のない参照分解能
- Authors: Yuval Kirstain, Ori Ram, Omer Levy
- Abstract要約: 我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
- 参考スコア(独自算出の注目度): 20.84150608402576
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Since the introduction of deep pretrained language models, most task-specific
NLP models were reduced to simple lightweight layers. An exception to this
trend is the challenging task of coreference resolution, where a sophisticated
end-to-end model is appended to a pretrained transformer encoder. While highly
effective, the model has a very large memory footprint -- primarily due to
dynamically-constructed span and span-pair representations -- which hinders the
processing of complete documents and the ability to train on multiple instances
in a single batch. We introduce a lightweight coreference model that removes
the dependency on span representations, handcrafted features, and heuristics.
Our model performs competitively with the current end-to-end model, while being
simpler and more efficient.
- Abstract(参考訳): 深く事前訓練された言語モデルの導入以来、ほとんどのタスク固有のNLPモデルは単純な軽量層に縮小された。
このトレンドの例外は、高度なエンドツーエンドモデルを事前訓練されたトランスフォーマーエンコーダに追加する、コア参照解決の難しいタスクである。
非常に効果的だが、モデルは非常に大きなメモリフットプリントを持ち、主に動的に構成されたスパンとスパンペアの表現によって、完全なドキュメントの処理と単一のバッチで複数のインスタンスをトレーニングする能力を妨げる。
我々は,スパン表現や手作り特徴,ヒューリスティックに依存しない軽量なコリファレンスモデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
関連論文リスト
- Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文 参考訳(メタデータ) (2026-03-05T03:16:16Z) - EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers [4.880377460177786]
Vision Transformers (ViTs) のような大型モデルは、ResNetのような小さなアーキテクチャに比べて、数ショットの分類において顕著な優位性を示している。
本稿では,クエリのみの微調整フレームワークであるEfficientFSLを提案する。
最小限のトレーニング可能なパラメータで、EfficientFSLは4つのドメイン内のいくつかのショットデータセットと6つのクロスドメインデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-13T12:33:02Z) - Black-box Model Merging for Language-Model-as-a-Service with Massive Model Repositories [21.899117703417517]
進化的アルゴリズム(Evo-Merging)に基づく微分自由最適化フレームワークを提案する。
提案手法は,(1) モデル間の不適切な情報や冗長な情報を識別・フィルタリングする疎結合型デノベーション,(2) 関連モデルに対する最適な組合せ重み付けを動的に計算するシグナック・アウェア・スケーリングの2つの重要な要素から構成される。
提案手法は,様々なタスクにおける最先端の成果を達成し,既存の強靭なベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-16T10:55:50Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - Why Train Everything? Tint a Single Layer for Multi-task Model Merging [17.496018757317824]
モデルマージは独立して微調整されたモデルを単一のマルチタスクモデルに統合し、ジョイントトレーニングの柔軟な代替手段を提供する。
多くの既存のモデルマージ手法は、追加のタスク固有のコンポーネントを導入し、複雑さを増し、追加の修正を必要とする。
単一のレイヤだけを更新することで、モデルマージを改善する軽量かつ高効率なアプローチであるModel Tintingを提案する。
論文 参考訳(メタデータ) (2024-12-26T07:42:06Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Pre-Trained Model Recommendation for Downstream Fine-tuning [22.343011779348682]
モデル選択は、市販の事前訓練されたモデルをランク付けし、新しいターゲットタスクに最も適したモデルを選択することを目的としている。
既存のモデル選択テクニックはスコープ内で制約されることが多く、モデルとタスク間の微妙な関係を見落としてしまう傾向があります。
我々は,多種多様な大規模モデルリポジトリを探索する実用的フレームワーク textbfFennec を提案する。
論文 参考訳(メタデータ) (2024-03-11T02:24:32Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Transformer-based Models for Long-Form Document Matching: Challenges and
Empirical Analysis [12.269318291685753]
単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。
単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
論文 参考訳(メタデータ) (2023-02-07T21:51:05Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。