論文の概要: RICA: Evaluating Robust Inference Capabilities Based on Commonsense
Axioms
- arxiv url: http://arxiv.org/abs/2005.00782v4
- Date: Fri, 10 Sep 2021 01:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 11:58:31.076634
- Title: RICA: Evaluating Robust Inference Capabilities Based on Commonsense
Axioms
- Title(参考訳): RICA:Commonsense Axiomsに基づくロバスト推論能力の評価
- Authors: Pei Zhou, Rahul Khanna, Seyeon Lee, Bill Yuchen Lin, Daniel Ho, Jay
Pujara, Xiang Ren
- Abstract要約: 我々は,Commonsense Axiomsに基づくロバスト推論機能であるRICAを提案する。
我々は,コモンセンス知識ベースを用いて,この課題のためのデータを生成し,2つの異なる評価設定でPTLMを探索する。
実験により、PTLMはゼロショット設定でのランダムな推測に勝らず、統計的バイアスに大きく影響し、摂動攻撃に対して堅牢ではないことが示された。
- 参考スコア(独自算出の注目度): 41.82685006832153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PTLMs) have achieved impressive performance on
commonsense inference benchmarks, but their ability to employ commonsense to
make robust inferences, which is crucial for effective communications with
humans, is debated. In the pursuit of advancing fluid human-AI communication,
we propose a new challenge, RICA: Robust Inference capability based on
Commonsense Axioms, that evaluates robust commonsense inference despite textual
perturbations. To generate data for this challenge, we develop a systematic and
scalable procedure using commonsense knowledge bases and probe PTLMs across two
different evaluation settings. Extensive experiments on our generated probe
sets with more than 10k statements show that PTLMs perform no better than
random guessing on the zero-shot setting, are heavily impacted by statistical
biases, and are not robust to perturbation attacks. We also find that
fine-tuning on similar statements offer limited gains, as PTLMs still fail to
generalize to unseen inferences. Our new large-scale benchmark exposes a
significant gap between PTLMs and human-level language understanding and offers
a new challenge for PTLMs to demonstrate commonsense.
- Abstract(参考訳): 事前学習型言語モデル(PTLM)は,コモンセンス推論ベンチマークにおいて顕著な性能を達成しているが,人間との効果的なコミュニケーションに欠かせない頑健な推論を行うためにコモンセンスを利用する能力は議論されている。
本稿では,人間-aiコミュニケーションの進展を追求するために,テキストの摂動にもかかわらずロバストなコモンセンス推論を評価する,コモンセンス公理に基づくロバスト推論能力(rica: robust inference capabilities)を提案する。
この課題のためのデータを生成するために,コモンセンス知識ベースを用いた体系的でスケーラブルな手法を開発し,PTLMを2つの異なる評価設定で探索する。
10k以上のステートメントを持つ我々の生成したプローブセットに対する大規模な実験により、PTLMはゼロショット設定でのランダムな推測に勝らず、統計的バイアスに大きく影響し、摂動攻撃に対して堅牢ではないことが示された。
また、同様の文の微調整は、PTLMがまだ見当たらない推論に一般化できないため、限られた利得を与える。
我々の新しい大規模ベンチマークは、PTLMと人間レベルの言語理解の間に大きなギャップを生じさせ、PTLMが常識を実証する新しい挑戦を提供する。
関連論文リスト
- A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Exploring the Physical World Adversarial Robustness of Vehicle Detection [13.588120545886229]
アドリアックは現実世界の検知モデルの堅牢性を損なう可能性がある。
CARLAシミュレータを用いた革新的なインスタントレベルデータ生成パイプラインを提案する。
本研究は, 逆境条件下での多種多様なモデル性能について考察した。
論文 参考訳(メタデータ) (2023-08-07T11:09:12Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Fair Robust Active Learning by Joint Inconsistency [22.150782414035422]
本稿では,従来のFALと対角的堅牢性を統合したFAL(Fair Robust Active Learning)を提案する。
関節不整合(JIN)による簡易かつ効果的なFRAL戦略の開発
本手法は, 良性サンプルと逆性サンプルと, 標準モデルとロバストモデルとの整合性の予測を利用する。
論文 参考訳(メタデータ) (2022-09-22T01:56:41Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。