論文の概要: Modeling Exemplification in Long-form Question Answering via Retrieval
- arxiv url: http://arxiv.org/abs/2205.09278v1
- Date: Thu, 19 May 2022 01:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 07:26:25.454322
- Title: Modeling Exemplification in Long-form Question Answering via Retrieval
- Title(参考訳): 検索による長文質問応答のモデル化例
- Authors: Shufan Wang, Fangyuan Xu, Laure Thompson, Eunsol Choi, Mohit Iyyer
- Abstract要約: 質問応答における模範化に関する最初の計算的研究について述べる。
我々は、最先端のLFQAモデルで関連するサンプルを生成するのに苦労するだけでなく、ROUGEのような標準評価指標では、模擬品質の判断に不十分であることを示す。
- 参考スコア(独自算出の注目度): 48.02725841308491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exemplification is a process by which writers explain or clarify a concept by
providing an example. While common in all forms of writing, exemplification is
particularly useful in the task of long-form question answering (LFQA), where a
complicated answer can be made more understandable through simple examples. In
this paper, we provide the first computational study of exemplification in QA,
performing a fine-grained annotation of different types of examples (e.g.,
hypotheticals, anecdotes) in three corpora. We show that not only do
state-of-the-art LFQA models struggle to generate relevant examples, but also
that standard evaluation metrics such as ROUGE are insufficient to judge
exemplification quality. We propose to treat exemplification as a
\emph{retrieval} problem in which a partially-written answer is used to query a
large set of human-written examples extracted from a corpus. Our approach
allows a reliable ranking-type automatic metrics that correlates well with
human evaluation. A human evaluation shows that our model's retrieved examples
are more relevant than examples generated from a state-of-the-art LFQA model.
- Abstract(参考訳): 例示とは、著者が例を示して概念の説明や明確化を行う過程である。
あらゆる形式に共通するが、例示は特に、単純な例によって複雑な答えをより理解しやすい長文質問応答(LFQA)のタスクにおいて有用である。
本稿では,3つのコーパスで異なる種類の例(仮説,逸話など)の微粒なアノテーションを実行し,QAにおけるサンプル化に関する最初の計算的研究を行う。
我々は,最先端のlfqaモデルが関連する例を生成するのに苦労しているだけでなく,ルージュなどの標準評価指標が模範的品質を判断するには不十分であることを示す。
そこで本研究では,コーパスから抽出した多数の人文例の問合せに部分書き回答を用いる,emph{retrieval}問題として例証化を扱うことを提案する。
提案手法は,人的評価と相関する信頼性の高いランキング型自動指標を実現する。
人間による評価により,我々のモデルから得られた例は,最先端のLFQAモデルから生成された例よりも関連性が高いことが示された。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Designing Informative Metrics for Few-Shot Example Selection [14.961505860372492]
本稿では,複雑性に基づく逐次タギングタスクのプロンプト選択手法を提案する。
このアプローチは、サンプルの選択専用のモデルのトレーニングを避ける。
文レベルと単語レベルの両方のメトリクスを用いて、例の複雑さと検討中の(テスト)文とを一致させる。
論文 参考訳(メタデータ) (2024-03-06T17:11:38Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - SCENE: Self-Labeled Counterfactuals for Extrapolating to Negative
Examples [23.77077091225583]
SCENE(Self-labeled Counterfactuals for Extrapolating to Negative Examples)は、学習データを自動合成する手法である。
SCENEは、答え可能なトレーニング例のみにアクセスすることで、SQuAD 2.0のパフォーマンスギャップの69.6%を埋めることができる。
論文 参考訳(メタデータ) (2023-05-13T19:30:58Z) - Understanding and Improving the Exemplar-based Generation for
Open-domain Conversation [9.335904274509918]
これらの欠点は、オープンドメイン会話における一対多の問題に由来すると我々は主張する。
本研究は,金の応答に意味論的に関連があるが,金の応答から語彙的に離れている経験者を選択する訓練手法を提案する。
提案手法は, 適切性, 情報性の観点から, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-13T15:06:09Z) - Explaining Latent Representations with a Corpus of Examples [72.50996504722293]
本稿では,サンプルベースの説明を自由に選択されたサンプル集合を参照して提供するユーザ中心の手法であるSimplExを提案する。
SimplExは、ポストホックな説明で潜伏空間に対するユーザの理解を改善するためにコーパスを使用する。
SimplExは,モデル表現を説明するコーパス内の関連パターンを強調表示することで,ユーザを力づけることを示す。
論文 参考訳(メタデータ) (2021-10-28T17:59:06Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - FEQA: A Question Answering Evaluation Framework for Faithfulness
Assessment in Abstractive Summarization [34.2456005415483]
我々は,その資料から生成した要約の忠実さを評価する問題に取り組む。
現在のモデルでは、抽象性と忠実性のトレードオフが示されています。
本稿では,信頼度を基準とした質問応答(QA)尺度を提案する。
論文 参考訳(メタデータ) (2020-05-07T21:00:08Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z) - Elephant in the Room: An Evaluation Framework for Assessing Adversarial
Examples in NLP [24.661335236627053]
逆の例は、機械学習モデルが常に誤分類している小さな摂動によって変換された入力である。
本稿では,自動評価指標と人的評価ガイドラインからなる評価フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-22T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。