論文の概要: A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering
- arxiv url: http://arxiv.org/abs/2106.07174v1
- Date: Mon, 14 Jun 2021 05:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-06-15 16:11:43.296871
- Title: A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering
- Title(参考訳): 弱教師付き質問応答におけるスプリアス解問題に対する相互情報最大化アプローチ
- Authors: Zhihong Shao, Lifeng Shang, Qun Liu, Minlie Huang
- Abstract要約: 弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
- 参考スコア(独自算出の注目度): 60.768146126094955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised question answering usually has only the final answers as
supervision signals while the correct solutions to derive the answers are not
provided. This setting gives rise to the spurious solution problem: there may
exist many spurious solutions that coincidentally derive the correct answer,
but training on such solutions can hurt model performance (e.g., producing
wrong solutions or answers). For example, for discrete reasoning tasks as on
DROP, there may exist many equations to derive a numeric answer, and typically
only one of them is correct. Previous learning methods mostly filter out
spurious solutions with heuristics or using model confidence, but do not
explicitly exploit the semantic correlations between a question and its
solution. In this paper, to alleviate the spurious solution problem, we propose
to explicitly exploit such semantic correlations by maximizing the mutual
information between question-answer pairs and predicted solutions. Extensive
experiments on four question answering datasets show that our method
significantly outperforms previous learning methods in terms of task
performance and is more effective in training models to produce correct
solutions.
- Abstract(参考訳): 弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つが、正しい解は提供されない。
偶然に正しい答えを導き出す散発的な解が多数存在するかもしれないが、そのような解に対するトレーニングはモデルのパフォーマンスを損なう可能性がある(例えば、間違った解や答えを生み出す)。
例えば、DROPのような離散的推論タスクに対しては、数値解を導出する方程式が多数存在し、典型的にはそのうちの1つのみが正しい。
従来の学習手法は、主にヒューリスティックスやモデル信頼を用いて急激な解をフィルタリングするが、質問とその解のセマンティックな相関を明示的に利用しない。
本稿では,スプリアス解問題を軽減するために,質問応答対と予測解の相互情報を最大化することにより,これらの意味相関を明示的に活用することを提案する。
4つの質問応答データセットの広範囲な実験により,本手法は従来の学習方法よりもタスク性能に優れており,正しい解を生成するためのモデルの訓練に有効であることが示された。
関連論文リスト
- Boosting Process-Correct CoT Reasoning by Modeling Solvability of Multiple-Choice QA [10.122669382758122]
モデルに対して質問が効果的に解決できない場合、思考の急激な連鎖(CoT)が出現しがちであることを示す。
結果監督型報酬モデルと強化学習をグループ相対的優位性で適用し,その目的に可解性を取り入れた。
本結果は,CoT推論における幻覚の低減と信頼性向上の鍵要因として可溶性を強調した。
論文 参考訳(メタデータ) (2025-09-30T08:34:16Z) - Exploring Solution Divergence and Its Effect on Large Language Model Problem Solving [37.94354699202412]
より高度な解の発散は、様々なモデルにまたがるより良い問題解決能力に肯定的に関係していることを示す。
SFT戦略とRL戦略の両方をサポートする新しい指標として解の発散を提案する。
論文 参考訳(メタデータ) (2025-09-26T15:27:50Z) - The Majority is not always right: RL training for solution aggregation [53.1050856072799]
我々はアグリゲータモデルをトレーニングし、最終的な正解をレビューし、精査し、合成する。
重要な要素は、簡単なトレーニング例と厳しいトレーニング例のバランスを取ることだ。
我々の手法であるAggLMは、強いルールベースと報酬モデルベースラインの両方を上回ります。
論文 参考訳(メタデータ) (2025-09-08T16:39:38Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - RL-MILP Solver: A Reinforcement Learning Approach for Solving Mixed-Integer Linear Programs with Graph Neural Networks [3.3894236476098185]
混合整数線形プログラミング (MILP) は様々な分野にまたがる最適化手法である。
本稿では,最初の実現可能な解を見つけるだけでなく,より有効な解を段階的に発見する新しい強化学習(RL)に基づく解法を提案する。
論文 参考訳(メタデータ) (2024-11-29T07:23:34Z) - Improving Socratic Question Generation using Data Augmentation and Preference Optimization [2.1485350418225244]
大規模言語モデル(LLM)は、学生のためのソクラテス的質問を自動的に生成することにより、人間の努力を強化するために使用できる。
これらの LLM をプロンプトする既存の手法は、時に無効な出力を生成する。
本研究では,既存のソクラテス質問データセットを,特定の方法で無効な質問で強化するデータ拡張手法を提案する。
次に,LLama 2 などのオープンソース LLM の最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T00:08:20Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z) - Continuous Tensor Relaxation for Finding Diverse Solutions in Combinatorial Optimization Problems [0.6906005491572401]
本研究では、教師なし学習(UL)に基づくCOソルバのための連続的アン緩和(CTRA)を提案する。
CTRAは、単一のトレーニング実行で多様なソリューションを見つけるための計算効率のよいフレームワークである。
数値実験により、CTRAにより、ULベースの解法は、既存の解法を繰り返すよりもはるかに高速にこれらの多様な解を見つけることができることが示された。
論文 参考訳(メタデータ) (2024-02-03T15:31:05Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - Generalizing Math Word Problem Solvers via Solution Diversification [56.2690023011738]
我々は,解バッファと解判別器を導入することで,MWPソルバの新しいトレーニングフレームワークを設計する。
本フレームワークは,全Seq2Seq MWPソルバの完全・半弱・弱教師付きトレーニングに柔軟に適用可能である。
論文 参考訳(メタデータ) (2022-12-01T19:34:58Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - Learning by Fixing: Solving Math Word Problems with Weak Supervision [70.62896781438694]
数学用語問題(mwps)の従来のニューラルネットワークソルバは、完全な監視によって学習され、多様なソリューションを生み出すことができない。
MWPを学習するためのテキスト弱教師付きパラダイムを提案する。
この手法は最終回答のアノテーションのみを必要とし、単一の問題に対して様々な解決策を生成できる。
論文 参考訳(メタデータ) (2020-12-19T03:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。