論文の概要: Free Lunch for Efficient Textual Commonsense Integration in Language
Models
- arxiv url: http://arxiv.org/abs/2305.15516v1
- Date: Wed, 24 May 2023 19:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:01:47.600528
- Title: Free Lunch for Efficient Textual Commonsense Integration in Language
Models
- Title(参考訳): 言語モデルにおける効率的なテキストコモンセンス統合のためのフリーランチ
- Authors: Wanyun Cui, Xingran Chen
- Abstract要約: 類似したコモンセンス記述を持つサンプルを1つのバッチにグループ化し、複数のサンプル間でエンコードされた記述を再利用する。
大規模な実験では、提案したバッチ分割手法が性能を保ちながら計算コストを効果的に削減することを示した。
効率の改善は、大規模なデータセットや、メモリ容量の大きいデバイスでより顕著であり、大規模なアプリケーションに実用性があることを証明している。
- 参考スコア(独自算出の注目度): 20.02647320786556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the emergence of textual commonsense knowledge
bases, aimed at providing more nuanced and context-rich knowledge. The
integration of external commonsense into language models has been shown to be a
key enabler in advancing the state-of-the-art for a wide range of NLP tasks.
However, incorporating textual commonsense descriptions is computationally
expensive, as compared to encoding conventional symbolic knowledge. In this
paper, we propose a method to improve its efficiency without modifying the
model. We group training samples with similar commonsense descriptions into a
single batch, thus reusing the encoded description across multiple samples. One
key observation is that the upper bound of batch partitioning can be reduced to
the classic {\it graph k-cut problem}. Consequently, we propose a spectral
clustering-based algorithm to solve this problem. Extensive experiments
illustrate that the proposed batch partitioning approach effectively reduces
the computational cost while preserving performance. The efficiency improvement
is more pronounced on larger datasets and on devices with more memory capacity,
attesting to its practical utility for large-scale applications.
- Abstract(参考訳): 近年では、よりニュアンス豊かで文脈に富んだ知識を提供することを目的とした、文章の常識的な知識ベースが出現している。
言語モデルへの外部コモンセンスの統合は、幅広いNLPタスクの最先端化における重要な実現要因であることが示されている。
しかし、従来の記号的知識の符号化と比較して、テキストのコモンセンス記述を組み込むことは計算コストがかかる。
本稿では,モデルを変更することなく効率を向上させる手法を提案する。
類似したコモンセンス記述を持つサンプルを1つのバッチにグループ化し、複数のサンプル間でエンコードされた記述を再利用する。
1つの重要な観察は、バッチ分割の上限は古典的なグラフ k-カット問題に還元できるということである。
そこで本研究では,スペクトルクラスタリングに基づくアルゴリズムを提案する。
大規模な実験により,提案手法は性能を保ちながら計算コストを効果的に削減することを示した。
効率の改善は、より大きなデータセットとより多くのメモリ容量を持つデバイスでより顕著であり、大規模なアプリケーションで実用性が証明されている。
関連論文リスト
- An Experimental Design Framework for Label-Efficient Supervised
Finetuning of Large Language Models [56.494109292472835]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Bit Cipher -- A Simple yet Powerful Word Representation System that
Integrates Efficiently with Language Models [4.807347156077897]
Bit-cipherは、バックプロパゲーションや超高効率次元減少技術の必要性を排除したワード表現システムである。
我々は、古典的な埋め込みによるビット暗号の競合性を評価するために、POSタグと名前付きエンティティ認識(NER)の探索実験を行った。
埋め込み層を暗号埋め込みに置き換えることで、トレーニングプロセスの高速化と最適な最適化を実現する上での暗号の顕著な効率を実証した。
論文 参考訳(メタデータ) (2023-11-18T08:47:35Z) - Adaptive End-to-End Metric Learning for Zero-Shot Cross-Domain Slot
Filling [2.6056468338837457]
スロットフィリングは、トレーニング中にサンプルを見ることのない新しいドメインを扱う上で重要な課題である。
ほとんどの先行研究は、メートル法学習に基づく2パスパイプライン方式でこの問題に対処している。
そこで本研究では,ゼロショットスロットの補充に挑戦する手法として,適応的なエンドツーエンドの計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T19:01:16Z) - Filling in the Gaps: Efficient Event Coreference Resolution using Graph
Autoencoder Networks [0.0]
本稿では,低リソースの言語ドメインに適用されたイベント・コンカレンス・レゾリューション(ECR)の新規かつ効率的な手法を提案する。
ECRをグラフ再構成タスクとすることで、深いセマンティック埋め込みと構造的コア参照チェーンの知識を組み合わせることができる。
提案手法は,オランダの大規模イベントコアスコーパスにおいて,古典的参照ペア法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-18T13:44:58Z) - Adaptive Gating in Mixture-of-Experts based Language Models [7.936874532105228]
モデルスケーリングのための有望なソリューションとして,Sparsely activated mixed-of-experts (MoE) が登場した。
本稿では,様々な専門家がトークンを処理できるフレキシブルなトレーニング戦略であるMoEで適応ゲーティングを導入する。
論文 参考訳(メタデータ) (2023-10-11T04:30:18Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code
Summarization [65.54811122644607]
新たなトレンドは、ニューラルモデルと外部知識を組み合わせることだ。
本稿では,バニラニューラルネットワークがより優れたコード要約を生成するのを支援するために,デコーダ側のトークンレベル検索強化機構について検討する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。