論文の概要: Zero-shot Entailment of Leaderboards for Empirical AI Research
- arxiv url: http://arxiv.org/abs/2303.16835v1
- Date: Wed, 29 Mar 2023 16:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 13:53:31.300970
- Title: Zero-shot Entailment of Leaderboards for Empirical AI Research
- Title(参考訳): 実証AI研究のためのリーダーボードのゼロショット化
- Authors: Salomon Kabongo, Jennifer D'Souza and S\"oren Auer
- Abstract要約: 本稿では,特定テキストエンタテインメント(RTE)タスクカテゴリにおけるゼロショット学習現象について,大規模な実証的研究を行う。
RTEタスクとして定式化されたリーダボード抽出に関する以前の報告では、ゼロショットではない設定で、90%以上のパフォーマンスを約束している。
本稿では,2つの先行報告された最先端モデルについて,包括的・包括的能力の検証を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a large-scale empirical investigation of the zero-shot learning
phenomena in a specific recognizing textual entailment (RTE) task category,
i.e. the automated mining of leaderboards for Empirical AI Research. The prior
reported state-of-the-art models for leaderboards extraction formulated as an
RTE task, in a non-zero-shot setting, are promising with above 90% reported
performances. However, a central research question remains unexamined: did the
models actually learn entailment? Thus, for the experiments in this paper, two
prior reported state-of-the-art models are tested out-of-the-box for their
ability to generalize or their capacity for entailment, given leaderboard
labels that were unseen during training. We hypothesize that if the models
learned entailment, their zero-shot performances can be expected to be
moderately high as well--perhaps, concretely, better than chance. As a result
of this work, a zero-shot labeled dataset is created via distant labeling
formulating the leaderboard extraction RTE task.
- Abstract(参考訳): 実験AI研究のためのリーダーボードの自動マイニングという,特定認識テキストエンターメント(RTE)タスクカテゴリにおいて,ゼロショット学習現象を大規模に調査する。
以前報告されたrteタスクとして定式化されたリーダボード抽出の最先端モデルは、非ゼロショット設定で90%以上のパフォーマンスが報告されている。
しかし、研究の中心となる疑問は、まだ解明されていない。
そこで本研究では,従来報告されていた2つの最先端モデルを用いて,トレーニング中に見つからなかったリーダボードラベルを前提として,一般化能力やエンテインメント能力の検証を行った。
モデルがエンテーメントを学習すれば、ゼロショットのパフォーマンスは適度に高くなり、おそらく、具体的には、偶然よりも優れていると仮定する。
この結果、リーダボード抽出rteタスクを定式化した遠方ラベリングにより、ゼロショットラベル付きデータセットが作成される。
関連論文リスト
- RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring [0.0]
Reasoning Distillation-Based Evaluation (RDBE) は、解釈可能性を統合し、モデルスコアの背景にある理論的根拠を解明する。
実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。
論文 参考訳(メタデータ) (2024-07-03T05:49:01Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Investigating the Emergent Audio Classification Ability of ASR Foundation Models [39.67769732947647]
本稿では,主に音声認識のために訓練された音声認識基礎モデルであるWhisperとMMSが,ゼロショット音声分類を行うことができることを示す。
以上の結果から,Whisperは8種類の音声分類データセットに対してゼロショット分類性能を示し,既存のゼロショットベースラインの精度を平均9%向上させることを示した。
さらに、モデルサイズによって性能が向上し、ASR基盤モデルがスケールアップされるにつれて、ゼロショット性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-15T20:52:56Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations [97.41375480696972]
そこで,Z-ICLを提案する。Z-ICL,Z-ICLは,与えられたテスト入力に対して擬似デモを構築することでギャップを埋める新しいゼロショット方式である。
9つの分類データセットの評価は、Z-ICLが従来のゼロショット法よりも有意差で優れていたことを示している。
論文 参考訳(メタデータ) (2022-12-19T21:34:26Z) - A Thorough Examination on Zero-shot Dense Retrieval [84.70868940598143]
本稿では,高密度検索(DR)モデルのゼロショット能力について,初めて徹底的に検討する。
我々は、ソーストレーニングセットに関連するいくつかの重要な要素の効果を議論し、ターゲットデータセットから潜在的なバイアスを分析し、既存のゼロショットDRモデルをレビューし、比較する。
論文 参考訳(メタデータ) (2022-04-27T07:59:07Z) - Raw waveform speaker verification for supervised and self-supervised
learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。
最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。
また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-16T09:28:03Z) - Automated Mining of Leaderboards for Empirical AI Research [0.0]
本研究では,知識グラフに基づく学術情報組織のためのリーダーボード作成のための包括的アプローチを提案する。
具体的には,最先端のトランスフォーマーモデルであるViz. Bert, SciBert, XLNetを用いたリーダボードの自動構築の問題点について検討する。
その結果、実験的なAI研究の大部分を、知識グラフとして次世代デジタルライブラリにまとめることができる。
論文 参考訳(メタデータ) (2021-08-31T10:00:52Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。