論文の概要: Exploring Question-Specific Rewards for Generating Deep Questions
- arxiv url: http://arxiv.org/abs/2011.01102v1
- Date: Mon, 2 Nov 2020 16:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 10:56:10.473022
- Title: Exploring Question-Specific Rewards for Generating Deep Questions
- Title(参考訳): Deep Questions作成のための質問特化リワードの探索
- Authors: Yuxi Xie, Liangming Pan, Dongzhe Wang, Min-Yen Kan, Yansong Feng
- Abstract要約: 我々は、生成した質問の流布度、妥当性、回答可能性を改善するために、ターゲットとする3つの異なる報酬を設計する。
質問固有報酬の最適化は、一般的に自動評価指標の性能向上につながる。
- 参考スコア(独自算出の注目度): 42.243227323241584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent question generation (QG) approaches often utilize the
sequence-to-sequence framework (Seq2Seq) to optimize the log-likelihood of
ground-truth questions using teacher forcing. However, this training objective
is inconsistent with actual question quality, which is often reflected by
certain global properties such as whether the question can be answered by the
document. As such, we directly optimize for QG-specific objectives via
reinforcement learning to improve question quality. We design three different
rewards that target to improve the fluency, relevance, and answerability of
generated questions. We conduct both automatic and human evaluations in
addition to a thorough analysis to explore the effect of each QG-specific
reward. We find that optimizing question-specific rewards generally leads to
better performance in automatic evaluation metrics. However, only the rewards
that correlate well with human judgement (e.g., relevance) lead to real
improvement in question quality. Optimizing for the others, especially
answerability, introduces incorrect bias to the model, resulting in poor
question quality. Our code is publicly available at
https://github.com/YuxiXie/RL-for-Question-Generation.
- Abstract(参考訳): 近年の質問生成 (QG) アプローチでは,教師の強制力を用いて,シーケンス・ツー・シーケンス・フレームワーク (Seq2Seq) を用いて,対数関係の最適化を行っている。
しかし、このトレーニングの目的は実際の質問品質と矛盾しており、質問が文書によって答えられるかどうかのような特定のグローバル特性に反映されることが多い。
質問質を向上させるために強化学習によるqg固有の目標を直接最適化する。
生成した質問の流動性、妥当性、応答性を改善するために、3つの異なる報酬をデザインします。
自動評価と人間評価の両方を行い,各qg特有の報酬の効果について徹底的な分析を行った。
質問固有報酬の最適化は、一般的に自動評価指標の性能向上につながる。
しかし、人間の判断(例えば、関連性)とよく相関する報酬だけは、質問品質の実質的な改善につながる。
他のもの、特に回答性の最適化は、モデルに誤ったバイアスをもたらし、その結果、質問の品質が低下する。
私たちのコードはhttps://github.com/YuxiXie/RL-for-Question-Generation.comで公開されています。
関連論文リスト
- Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter [17.736962215696366]
本稿では,単一ラウンドのインスタンスレベルのプロンプト最適化について述べる。
ブラックボックスLSMに対する人間の質問の信頼性を高めることにより、質問書き直しは生成した回答の品質を向上させる。
論文 参考訳(メタデータ) (2024-08-20T06:24:47Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - KEPR: Knowledge Enhancement and Plausibility Ranking for Generative
Commonsense Question Answering [11.537283115693432]
本稿では,ジェネレート・Then-Rankパイプラインアーキテクチャに基づく知識向上と可視性ランキング手法を提案する。
具体的には、キーワードのWiktionary Commonsense知識の観点から質問を拡張し、正規化パターンで修正する。
ELECTRAに基づく回答ランキングモデルを構築し、学習中にロジスティック回帰を行う。
論文 参考訳(メタデータ) (2023-05-15T04:58:37Z) - Synthetic Question Value Estimation for Domain Adaptation of Question
Answering [31.003053719921628]
対象領域のQA性能を改善するために合成質問の有用性を直接推定する質問値推定器(QVE)をトレーニングする新しいアイデアを導入する。
このような質問を使用することで、ターゲットドメイン上のヒューマンアノテーションの約15%しか、完全に教師されたベースラインに匹敵するパフォーマンスを達成できません。
論文 参考訳(メタデータ) (2022-03-16T20:22:31Z) - Improving the Question Answering Quality using Answer Candidate
Filtering based on Natural-Language Features [117.44028458220427]
本稿では,質問応答(QA)の品質をいかに改善できるかという課題に対処する。
私たちの主な貢献は、QAシステムが提供する間違った回答を識別できるアプローチです。
特に,提案手法は誤答の大部分を除去しつつ,その可能性を示した。
論文 参考訳(メタデータ) (2021-12-10T11:09:44Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z) - Towards Automatic Generation of Questions from Long Answers [11.198653485869935]
本稿では,従来のAQGシステムの性能評価のための新しい評価ベンチマークを提案する。
既存のAQG法の性能は,回答の長さが大きくなるにつれて著しく低下することを示した。
トランスフォーマーに基づく手法は, 従来のAQG法よりも, 自己評価や人的評価の点で優れていた。
論文 参考訳(メタデータ) (2020-04-10T16:45:08Z) - Reinforced Multi-task Approach for Multi-hop Question Generation [47.15108724294234]
我々は,その文脈における支援事実に基づいて,関連する質問を生成することを目的としたマルチホップ質問生成を取り上げている。
我々は,質問生成を導くために,回答認識支援事実予測の補助タスクを備えたマルチタスク学習を採用する。
マルチホップ質問応答データセットHotPotQAの実験を通して,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-04-05T10:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。