論文の概要: SETI: Systematicity Evaluation of Textual Inference
- arxiv url: http://arxiv.org/abs/2305.15045v1
- Date: Wed, 24 May 2023 11:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:25:42.678310
- Title: SETI: Systematicity Evaluation of Textual Inference
- Title(参考訳): SETI:テキスト推論の体系性評価
- Authors: Xiyan Fu, Anette Frank
- Abstract要約: 本稿では,事前学習言語モデル(PLM)を評価するための新しい総合ベンチマークSETI(Systematicity Evaluation of Textual Inference)を提案する。
特に、SETIは3つの異なるNLIタスクとそれに対応するデータセットを提供し、推論プロセスにおける様々なタイプの体系性を評価する。
実験の結果,プリミティブを組み合わさった知識に遭遇したとき,多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種
- 参考スコア(独自算出の注目度): 24.156140116509064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SETI (Systematicity Evaluation of Textual Inference), a novel and
comprehensive benchmark designed for evaluating pre-trained language models
(PLMs) for their systematicity capabilities in the domain of textual inference.
Specifically, SETI offers three different NLI tasks and corresponding datasets
to evaluate various types of systematicity in reasoning processes. In order to
solve these tasks, models are required to perform compositional inference based
on known primitive constituents. We conduct experiments of SETI on six widely
used PLMs. Results show that various PLMs are able to solve unseen
compositional inferences when having encountered the knowledge of how to
combine primitives, with good performance. However, they are considerably
limited when this knowledge is unknown to the model (40-100% points decrease).
Furthermore, we find that PLMs can improve drastically once exposed to crucial
compositional knowledge in minimalistic shots. These findings position SETI as
the first benchmark for measuring the future progress of PLMs in achieving
systematicity generalization in the textual inference.
- Abstract(参考訳): テキスト推論の領域において,事前学習された言語モデル(PLM)を評価するための新しい総合的ベンチマークSETI(Systematicity Evaluation of Textual Inference)を提案する。
特に、SETIは3つの異なるNLIタスクとそれに対応するデータセットを提供し、推論プロセスにおける様々なタイプの体系性を評価する。
これらの課題を解決するために、モデルは既知のプリミティブ構成子に基づいて構成推論を行う必要がある。
6種類の広帯域PLM上でSETI実験を行った。
その結果、様々なplmは、プリミティブと優れたパフォーマンスを組み合わせる方法の知識に遭遇した際に、目に見えない合成推論を解決できることがわかった。
しかし、この知識がモデルに知られていない場合(40-100%ポイント減少)、それらはかなり制限される。
さらに, PLMは最小限のショットにおいて重要な構成知識に晒された場合, 劇的に改善できることがわかった。
これらの結果から,SETIはテキスト推論における系統的一般化を実現する上で,PLMの今後の進歩を測定するための最初のベンチマークであると考えられた。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Pronunciation Assessment with Multi-modal Large Language Models [10.35401596425946]
大規模言語モデル(LLM)に基づくスコアリングシステムを提案する。
音声エンコーダは、まず学習者の音声を文脈的特徴にマッピングする。
アダプタ層は、これらの機能を潜在空間に埋め込まれたテキストに合わせるように変換する。
論文 参考訳(メタデータ) (2024-07-12T12:16:14Z) - Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models [14.405446719317291]
既存のデバイアス技術はトレーニングベースまたはモデルの内部および出力分布へのアクセスを必要とするのが一般的である。
我々は,システム2の思考プロセスを適用し,論理的,反射的,批判的テキスト生成を誘導する,包括的エンドユーザー中心のデバイアスの反復的枠組みを評価する。
論文 参考訳(メタデータ) (2024-05-16T20:27:58Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z) - What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。
社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。
本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文 参考訳(メタデータ) (2022-02-08T11:44:20Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。