論文の概要: Comparing Template-based and Template-free Language Model Probing
- arxiv url: http://arxiv.org/abs/2402.00123v2
- Date: Wed, 30 Oct 2024 02:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:52.034918
- Title: Comparing Template-based and Template-free Language Model Probing
- Title(参考訳): テンプレートベースとテンプレートフリー言語モデルの比較
- Authors: Sagi Shaier, Kevin Bennett, Lawrence E Hunter, Katharina von der Wense,
- Abstract要約: 16の異なるクローゼタスク言語モデル (LM) を10の英語データセット上で評価した。
テンプレートのない、テンプレートベースのアプローチは、上位ドメイン固有のモデルを除いて、モデルが異なるランク付けをすることが多い。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The differences between cloze-task language model (LM) probing with 1) expert-made templates and 2) naturally-occurring text have often been overlooked. Here, we evaluate 16 different LMs on 10 probing English datasets -- 4 template-based and 6 template-free -- in general and biomedical domains to answer the following research questions: (RQ1) Do model rankings differ between the two approaches? (RQ2) Do models' absolute scores differ between the two approaches? (RQ3) Do the answers to RQ1 and RQ2 differ between general and domain-specific models? Our findings are: 1) Template-free and template-based approaches often rank models differently, except for the top domain-specific models. 2) Scores decrease by up to 42% Acc@1 when comparing parallel template-free and template-based prompts. 3) Perplexity is negatively correlated with accuracy in the template-free approach, but, counter-intuitively, they are positively correlated for template-based probing. 4) Models tend to predict the same answers frequently across prompts for template-based probing, which is less common when employing template-free techniques.
- Abstract(参考訳): クローゼタスク言語モデル(LM)の探索における違い
1)専門家によるテンプレート
2)自然発生のテキストは見過ごされがちである。
ここでは、16の異なるLM(テンプレートベース4つ、テンプレートフリー6つ)を評価して、以下の研究課題に答える。 (RQ1) モデルランキングは、2つのアプローチで異なるのか?
(RQ2)
モデルの絶対スコアは2つのアプローチで異なりますか?
(RQ3)
RQ1とRQ2に対する答えは、一般モデルとドメイン固有モデルによって異なるのか?
私たちの発見は以下のとおりです。
1)テンプレートフリーでテンプレートベースのアプローチは、上位ドメイン固有のモデルを除いて、モデルが異なるランク付けをすることが多い。
2) 並列テンプレートフリーとテンプレートベースのプロンプトを比較すると,スコアは最大42%Acc@1に低下する。
3) 複雑度はテンプレートフリーアプローチの精度と負に相関するが, 反対にテンプレートベースのプローブでは正に相関する。
4) モデルはテンプレートベースの探索のプロンプトにまたがって、同じ回答を頻繁に予測する傾向があります。
関連論文リスト
- Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - BvSP: Broad-view Soft Prompting for Few-Shot Aspect Sentiment Quad Prediction [10.313467662221319]
アスペクト感情クワッド予測(ASQP)は、アスペクト項、意見項、アスペクトカテゴリー、感情極性を含む4つのアスペクトベースの要素を予測することを目的としている。
この研究はASQPを数ショットのシナリオに定式化し、実際のアプリケーションで高速に適応することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T15:32:32Z) - Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements [10.687101698324897]
大規模な言語モデルは、いくつかの例から新しいタスクを解くための驚くべき能力を示している。
プロンプトテンプレート、あるいはインプット例をフォーマットしてプロンプトを取得する方法は、コンテキスト内学習の重要な側面であるが、見過ごされがちである。
テンプレートの貧弱な選択は、最強モデルと推論手法の性能をランダムな推測レベルに低下させることができることを示す。
論文 参考訳(メタデータ) (2024-01-12T18:58:26Z) - CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias [7.28980829208179]
言語モデル(CALM)の包括的評価は、普遍的に関連する2種類の社会デマログラフバイアス、性別、人種の頑健な測定である。
実験により,CALMのバイアススコアは,テンプレートの摂動に対する従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
論文 参考訳(メタデータ) (2023-08-24T03:53:55Z) - Event Extraction as Question Generation and Answering [72.04433206754489]
イベント抽出に関する最近の研究は、質問回答(QA)としてタスクを再編成した。
そこで我々は,QGA-EEを提案する。QGモデルにより,定型テンプレートを使わずに,リッチな文脈情報を含む質問を生成することができる。
実験の結果、QGA-EEはACE05の英語データセットで以前のシングルタスクベースのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-07-10T01:46:15Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Explanation-based Finetuning Makes Models More Robust to Spurious Cues [21.327036110196637]
大きな言語モデル(LLM)は非常に強力で、ラベルとタスクとは無関係な機能の間に相関関係を学習することがある。
本稿では,LLMの素早い相関性への依存を軽減するための一般的なアプローチとして,説明ベースファインタニングを提案する。
我々は、その解答をサポートする自由テキスト説明を新たに生成するように、モデルを微調整する。
論文 参考訳(メタデータ) (2023-05-08T18:53:45Z) - Weakly-Supervised Questions for Zero-Shot Relation Extraction [3.030622181266347]
ゼロショット関係抽出(ゼロショット関係抽出、ZRE)は、トレーニングとテストセットが共有関係型を持たない関係抽出のタスクである。
質問回答(QA)としてのZREリフレーム関係抽出への前向きアプローチ
ここでは、これらの金のテンプレートを廃止して、見当たらない関係に関する質問を生成できるモデルを学ぶ。
論文 参考訳(メタデータ) (2023-01-21T22:18:24Z) - An Information-theoretic Approach to Prompt Engineering Without Ground
Truth Labels [55.06990011183662]
我々は、ラベル付き例やtextitwithout のモデルへの直接アクセスなしに、プロンプトテンプレートを選択する新しい方法を提案する。
7つの異なるNLPタスクを表す8つのデータセットにまたがって、テンプレートが高い相互情報を持つ場合、そのタスクに対して高い精度を持つことを示す。
論文 参考訳(メタデータ) (2022-03-21T21:51:43Z) - tFold-TR: Combining Deep Learning Enhanced Hybrid Potential Energy for
Template-Based Modelling Structure Refinement [53.98034511648985]
現在のテンプレートベースのモデリングアプローチは2つの重要な問題に苦しんでいる。
テンプレートの異なる領域からの距離対の精度は様々であり、この情報はモデリングにはあまり導入されていない。
2つのニューラルネットワークモデルは、欠落した領域の距離情報と、テンプレートモデリング構造における異なる領域の距離ペアの精度を予測する。
論文 参考訳(メタデータ) (2021-05-10T13:32:12Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。