論文の概要: TAPE: Assessing Few-shot Russian Language Understanding
- arxiv url: http://arxiv.org/abs/2210.12813v1
- Date: Sun, 23 Oct 2022 18:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:34:56.587371
- Title: TAPE: Assessing Few-shot Russian Language Understanding
- Title(参考訳): TAPE:ロシア語を少し理解する
- Authors: Ekaterina Taktasheva, Tatiana Shavrina, Alena Fenogenova, Denis
Shevelev, Nadezhda Katricheva, Maria Tikhonova, Albina Akhmetgareeva, Oleg
Zinkevich, Anastasiia Bashmakova, Svetlana Iordanskaia, Alena Spiridonova,
Valentina Kurenshchikova, Ekaterina Artemova, Vladislav Mikhailov
- Abstract要約: TAPE(Text Attack and Perturbation Evaluation)は、ロシアの6つのより複雑なNLUタスクを含む新しいベンチマークである。
自己回帰ベースラインテストの詳細な解析は、単純な綴りに基づく摂動が最もパフォーマンスに影響することを示している。
我々はTAPEを公開して、監督がほとんど、あるいは全くできない場合に、新しいタスクに一般化できる堅牢なLMの研究を促進する。
- 参考スコア(独自算出の注目度): 1.9859374437454114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in zero-shot and few-shot learning have shown promise for a
scope of research and practical purposes. However, this fast-growing area lacks
standardized evaluation suites for non-English languages, hindering progress
outside the Anglo-centric paradigm. To address this line of research, we
propose TAPE (Text Attack and Perturbation Evaluation), a novel benchmark that
includes six more complex NLU tasks for Russian, covering multi-hop reasoning,
ethical concepts, logic and commonsense knowledge. The TAPE's design focuses on
systematic zero-shot and few-shot NLU evaluation: (i) linguistic-oriented
adversarial attacks and perturbations for analyzing robustness, and (ii)
subpopulations for nuanced interpretation. The detailed analysis of testing the
autoregressive baselines indicates that simple spelling-based perturbations
affect the performance the most, while paraphrasing the input has a more
negligible effect. At the same time, the results demonstrate a significant gap
between the neural and human baselines for most tasks. We publicly release TAPE
(tape-benchmark.com) to foster research on robust LMs that can generalize to
new tasks when little to no supervision is available.
- Abstract(参考訳): ゼロショットと少数ショットの学習の最近の進歩は、研究と実践の目的の範囲を約束している。
しかし、この急速に成長する領域は、英語以外の言語の標準化された評価スイートを欠き、アングロ中心のパラダイム以外の進歩を妨げる。
この一連の研究に対処するため, TAPE (Text Attack and Perturbation Evaluation) を提案する。このベンチマークには, マルチホップ推論, 倫理概念, 論理学, 常識知識の6つのより複雑なNLUタスクが含まれている。
TAPEの設計は、体系的なゼロショットと少数ショットのNLU評価に焦点を当てている。
(i)頑健性分析のための言語指向の敵対的攻撃と摂動
(ii)ニュアンス解釈のサブ集団
自己回帰ベースラインのテストに関する詳細な分析は、単純な綴りに基づく摂動がパフォーマンスに最も影響することを示しているが、パラフレージングはより無視できる効果を持つ。
同時に、この結果は、ほとんどのタスクにおいて、神経と人間のベースラインの間に大きなギャップがあることを示します。
我々はTAPE(tape-benchmark.com)を公開し、監督がほとんど、あるいは全くできない場合に新しいタスクに一般化できる堅牢なLMの研究を促進する。
関連論文リスト
- Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation [41.66053021998106]
アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。
このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。
我々は、アスペクトと意見の項に対して、代替の有効なレスポンスで既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-13T11:48:09Z) - ROAST: Review-level Opinion Aspect Sentiment Target Joint Detection for ABSA [50.90538760832107]
本研究は新たな課題であるROAST(Review-Level Opinion Aspect Sentiment Target)を提示する。
ROASTは、文章レベルのABSAとテキストレベルのABSAのギャップを埋めようとしている。
利用可能なデータセットを拡張してROASTを有効にし、以前の研究で指摘された欠点に対処します。
論文 参考訳(メタデータ) (2024-05-30T17:29:15Z) - On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation [71.72465617754553]
対象中心の3次元空間関係を伝達する低レベルな文を生成し,これらを追加言語として組み込んで,深度推定における下流の影響を評価する。
我々の重要な発見は、現在の言語誘導深度推定器がシーンレベルの記述のみを最適に実行することである。
追加データを活用するにもかかわらず、これらの手法は敵の直接攻撃や分散シフトの増加に伴う性能低下に対して堅牢ではない。
論文 参考訳(メタデータ) (2024-04-12T15:35:20Z) - Learning Shortcuts: On the Misleading Promise of NLU in Language Models [4.8951183832371]
大規模言語モデル(LLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。
近年の研究では、LLMはタスクの実行時にショートカットを利用することが多く、その決定規則の一般化性に欠けると同時に、性能向上の錯覚を生んでいることが判明している。
論文 参考訳(メタデータ) (2024-01-17T21:55:15Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer
with Fine-tuning Slow and Fast [50.19681990847589]
既存の研究では、1つの(ソース)言語で微調整された多言語事前学習言語モデルが、非ソース言語の下流タスクでもうまく機能していることが示されている。
本稿では、微調整プロセスを分析し、パフォーマンスギャップがいつ変化するかを分析し、ネットワークの重みが全体のパフォーマンスに最も影響するかを特定する。
論文 参考訳(メタデータ) (2023-05-19T06:04:21Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。