論文の概要: Break, Perturb, Build: Automatic Perturbation of Reasoning Paths through
Question Decomposition
- arxiv url: http://arxiv.org/abs/2107.13935v1
- Date: Thu, 29 Jul 2021 12:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:21:29.655687
- Title: Break, Perturb, Build: Automatic Perturbation of Reasoning Paths through
Question Decomposition
- Title(参考訳): Break, Perturb, Build: 質問分解による推論パスの自動摂動
- Authors: Mor Geva, Tomer Wolfson, Jonathan Berant
- Abstract要約: BPB(Break, Perturb, Build)は質問応答対の自動摂動のためのフレームワークである。
BPBは、それを答えるために必要な推論ステップに分解し、象徴的に分解を妨害し、新しい質問と答えのペアを生成することによって、質問を表す。
- 参考スコア(独自算出の注目度): 31.181618231144746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent efforts to create challenge benchmarks that test the abilities of
natural language understanding models have largely depended on human
annotations. In this work, we introduce the "Break, Perturb, Build" (BPB)
framework for automatic reasoning-oriented perturbation of question-answer
pairs. BPB represents a question by decomposing it into the reasoning steps
that are required to answer it, symbolically perturbs the decomposition, and
then generates new question-answer pairs. We demonstrate the effectiveness of
BPB by creating evaluation sets for three reading comprehension (RC)
benchmarks, generating thousands of high-quality examples without human
intervention. We evaluate a range of RC models on our evaluation sets, which
reveals large performance gaps on generated examples compared to the original
data. Moreover, symbolic perturbations enable fine-grained analysis of the
strengths and limitations of models. Last, augmenting the training data with
examples generated by BPB helps close performance gaps, without any drop on the
original data distribution.
- Abstract(参考訳): 自然言語理解モデルの能力をテストするチャレンジベンチマークを作成する最近の取り組みは、主に人間のアノテーションに依存している。
本研究では,質問応答対の自動摂動のためのBPB(Break, Perturb, Build)フレームワークを提案する。
BPBは、それを答えるために必要な推論ステップに分解し、象徴的に分解を妨害し、新しい質問と答えのペアを生成する。
本研究では,3つの読影理解(RC)ベンチマークの評価セットを作成することにより,BPBの有効性を示す。
評価セット上でのRCモデルの評価を行い, 生成した実例に対して, 元のデータと比較して大きな性能差を示す。
さらに、シンボリック摂動はモデルの強度と限界のきめ細かい解析を可能にする。
最後に、BPBが生成した例によるトレーニングデータの強化は、元のデータ分布を落とさずに、パフォーマンスのギャップを埋めるのに役立つ。
関連論文リスト
- DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models [6.369258625916601]
ポストホックの解釈可能性法は、モデルの意思決定プロセスを完全に捉えるのに失敗する。
本稿では,グローバルなルールベースの説明を見つけるための新しい手法であるdisCOを紹介する。
DISCOは対話的な説明をサポートし、人間の検査者がルールベースの出力で突発的な原因を区別できるようにする。
論文 参考訳(メタデータ) (2024-11-07T12:12:44Z) - Automatic Evaluation of Attribution by Large Language Models [24.443271739599194]
大規模言語モデル(LLM)による属性の自動評価について検討する。
まず、異なる種類の属性エラーを定義し、次に自動評価のための2つのアプローチを検討する。
生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。
論文 参考訳(メタデータ) (2023-05-10T16:58:33Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。
本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。
前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文 参考訳(メタデータ) (2022-05-18T21:52:11Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Paired Examples as Indirect Supervision in Latent Decision Models [109.76417071249945]
我々は、ペア化された例を活用して、潜在的な決定を学習するためのより強力な手がかりを提供する方法を紹介します。
DROPデータセット上のニューラルネットワークを用いた合成質問応答の改善に本手法を適用した。
論文 参考訳(メタデータ) (2021-04-05T03:58:30Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - More Bang for Your Buck: Natural Perturbation for Robust Question
Answering [49.83269677507831]
全く新しい例のトレーニングセットを構築するための標準アプローチの代替案を提案する。
私たちのアプローチは、まず種子のサンプルを集め、次に人間主導の自然摂動を適用します。
自然摂動が作成に適度に安価である場合、モデルを用いたモデルのトレーニングがより効果的であることに気付きました。
論文 参考訳(メタデータ) (2020-04-09T23:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。