論文の概要: Answering Unseen Questions With Smaller Language Models Using Rationale
Generation and Dense Retrieval
- arxiv url: http://arxiv.org/abs/2308.04711v3
- Date: Thu, 12 Oct 2023 21:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:14:40.682981
- Title: Answering Unseen Questions With Smaller Language Models Using Rationale
Generation and Dense Retrieval
- Title(参考訳): Rationale 生成とDense Retrieval を用いた小型言語モデルによる未知の質問への回答
- Authors: Tim Hartill, Diana Benavides-Prado, Michael Witbrock, Patricia J.
Riddle
- Abstract要約: この設定でさらに改善する2つの方法を評価する。
どちらも、より大きな言語モデルによって生成された合理性と、マルチホップ密度検索システムから生成された長いコンテキストを組み合わせることに焦点を当てている。
我々の最高の推論モデルは、見当たらない評価データセットに対して、強い比較前のベースラインを大幅に改善します。
- 参考スコア(独自算出の注目度): 9.136948771060895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When provided with sufficient explanatory context, smaller Language Models
have been shown to exhibit strong reasoning ability on challenging short-answer
question-answering tasks where the questions are unseen in training. We
evaluate two methods for further improvement in this setting. Both methods
focus on combining rationales generated by a larger Language Model with longer
contexts created from a multi-hop dense retrieval system. The first method
($\textit{RR}$) involves training a Rationale Ranking model to score both
generated rationales and retrieved contexts with respect to relevance and
truthfulness. We then use the scores to derive combined contexts from both
knowledge sources using a number of combinatory strategies. For the second
method ($\textit{RATD}$) we utilise retrieval-augmented training datasets
developed by Hartill et al. 2023 to train a smaller Reasoning model such that
it becomes proficient at utilising relevant information from longer text
sequences that may be only partially evidential and frequently contain many
irrelevant sentences. We find that both methods significantly improve results.
Our single best Reasoning model materially improves upon strong comparable
prior baselines for unseen evaluation datasets (StrategyQA 58.9 $\rightarrow$
61.7 acc., CommonsenseQA 63.6 $\rightarrow$ 72.7 acc., ARC-DA 31.6
$\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1) and a version utilising
our prior knowledge of each type of question in selecting a context combination
strategy does even better. Our proposed models also generally outperform direct
prompts against much larger models (BLOOM 175B and StableVicuna 13B) in both
few-shot chain-of-thought and standard few-shot settings.
- Abstract(参考訳): 十分な説明的文脈が与えられると、より小さな言語モデルが、質問が訓練中に見当たらない短い質問応答タスクに対して強い推論能力を示すことが示される。
この設定でさらに改善する2つの方法を評価する。
どちらの手法も、より大きな言語モデルによって生成される有理性と、マルチホップ高密度検索システムから生成される長いコンテキストを組み合わせることに重点を置いている。
最初のメソッド($\textit{RR}$)では、Rationale Rankingモデルをトレーニングして、生成した有理性と検索されたコンテキストの両方を関連性および真理性に関してスコア付けする。
次に、これらのスコアを用いて、複数の組み合わせ戦略を用いて、両方の知識ソースから組み合わせたコンテキストを導出する。
第2のメソッド($\textit{ratd}$)については、hartill氏らによって開発された検索型トレーニングデータセットを使用して、より小さな推論モデルのトレーニングを行い、部分的な証拠的かつ頻繁に無関係な文を含む長いテキストシーケンスから関連する情報を活用できるようにします。
いずれの手法も結果を大幅に改善する。
我々の最高の推論モデルは、目に見えない評価データセット(StrategyQA 58.9 $\rightarrow$ 61.7 acc)に対して、強力な比較前のベースラインを大幅に改善します。
詳細はCommonsenseQA 63.6 $\rightarrow$ 72.7 acc. を参照のこと。
ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1 と、コンテキストの組み合わせ戦略を選択する際の各質問の事前知識を利用するバージョンは、さらに優れている。
また,提案モデルでは,提案モデルがより大規模モデル (bloom 175bとstablevicuna 13b) に対する直接プロンプトよりも優れていた。
関連論文リスト
- Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - Adapting Neural Link Predictors for Data-Efficient Complex Query
Answering [45.961111441411084]
本稿では,複雑な問合せタスクに対して,ニューラルネットワーク予測スコアを再校正するために最適化されたパラメータ効率のスコア強調モデルを提案する。
CQD$mathcalA$は現在の最先端手法よりもはるかに正確な結果が得られる。
論文 参考訳(メタデータ) (2023-01-29T00:17:16Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z) - STaR: Bootstrapping Reasoning With Reasoning [39.45372621632046]
自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。
結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-03-28T03:12:15Z) - A Study on Efficiency, Accuracy and Document Structure for Answer
Sentence Selection [112.0514737686492]
本稿では,単語関連エンコーダとともに,原語階の内在的構造を活用すれば,競争的な結果が得られることを論じる。
私たちのモデルはWikiQAデータセットでトレーニングするのに9.5秒かかります。
論文 参考訳(メタデータ) (2020-03-04T22:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。