論文の概要: Answering Unseen Questions With Smaller Language Models Using Rationale
Generation and Dense Retrieval
- arxiv url: http://arxiv.org/abs/2308.04711v2
- Date: Sat, 12 Aug 2023 00:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 18:22:14.604789
- Title: Answering Unseen Questions With Smaller Language Models Using Rationale
Generation and Dense Retrieval
- Title(参考訳): Rationale 生成とDense Retrieval を用いた小型言語モデルによる未知の質問への回答
- Authors: Tim Hartill, Diana Benavides-Prado, Michael Witbrock, Patricia J.
Riddle
- Abstract要約: スモールランゲージモデルは、質問応答課題に挑戦する上で、強力な推論能力を示すことが示されている。
この設定でさらに改善する2つの方法を評価する。
4億4000万のパラメータしか使用していない1つの最良の推論モデルは、見当たらない評価データセットに対して、強力な比較前のベースラインを大幅に改善します。
- 参考スコア(独自算出の注目度): 9.136948771060895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When provided with sufficient explanatory context, smaller Language Models
have been shown to exhibit strong reasoning ability on challenging short-answer
question-answering tasks where the questions are unseen in training. We
evaluate two methods for further improvement in this setting. Both methods
focus on combining rationales generated by a larger Language Model with longer
contexts created from a multi-hop dense retrieval system. The first method
($\textit{RR}$) involves training a Rationale Ranking model to score both
generated rationales and retrieved contexts with respect to relevance and
truthfulness. We then use the scores to derive combined contexts from both
knowledge sources using a number of combinatory strategies. For the second
method ($\textit{RATD}$) we train a smaller Reasoning model using
retrieval-augmented training datasets such that it becomes proficient at
utilising relevant information from longer text sequences that may be only
partially evidential and frequently contain many irrelevant sentences.
Generally we find that both methods are effective but that the $\textit{RATD}$
method is more straightforward to apply and produces the strongest results in
the unseen setting on which we focus. Our single best Reasoning model using
only 440 million parameters materially improves upon strong comparable prior
baselines for unseen evaluation datasets (StrategyQA 58.9 $\rightarrow$ 61.7
acc., CommonsenseQA 63.6 $\rightarrow$ 72.7 acc., ARC-DA 31.6 $\rightarrow$
52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1) and a version utilising our prior
knowledge of each type of question in selecting a context combination strategy
does even better. Our proposed models also generally outperform direct prompts
against much larger models (BLOOM 175B and StableVicuna 13B) in both few-shot
chain-of-thought and few-shot answer-only settings.
- Abstract(参考訳): 十分な説明的文脈が与えられると、より小さな言語モデルが、質問が訓練中に見当たらない短い質問応答タスクに対して強い推論能力を示すことが示される。
この設定でさらに改善する2つの方法を評価する。
どちらの手法も、より大きな言語モデルによって生成される有理性と、マルチホップ高密度検索システムから生成される長いコンテキストを組み合わせることに重点を置いている。
最初のメソッド($\textit{RR}$)では、Rationale Rankingモデルをトレーニングして、生成した有理性と検索されたコンテキストの両方を関連性および真理性に関してスコア付けする。
次に、これらのスコアを用いて、複数の組み合わせ戦略を用いて、両方の知識ソースから組み合わせたコンテキストを導出する。
2つ目の方法(\textit{RATD}$)では、検索強化トレーニングデータセットを使用してより小さな推論モデルをトレーニングし、部分的には明確で、多くの無関係な文を含むかもしれない長いテキストシーケンスから関連する情報を利用するのに熟練した。
一般的に、両方のメソッドは有効であるが、$\textit{ratd}$メソッドの方が適用が簡単で、私たちが焦点を当てている見えない設定で最も強い結果を生み出す。
たった4億4000万のパラメータを使った唯一の最善の推論モデルは、未発見の評価データセット(strategyqa 58.9 $\rightarrow$ 61.7 acc)の強力な比較基準によって、物質的に改善されます。
詳細はCommonsenseQA 63.6 $\rightarrow$ 72.7 acc. を参照のこと。
ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1 と、コンテキストの組み合わせ戦略を選択する際の各質問の事前知識を利用するバージョンは、さらに優れている。
提案したモデルは、通常、より大型のモデル(BLOOM 175BとStableVicuna 13B)に対して、数発のチェーンと数発の応答のみの設定の両方で直接のプロンプトより優れている。
関連論文リスト
- FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - Adapting Neural Link Predictors for Data-Efficient Complex Query
Answering [45.961111441411084]
本稿では,複雑な問合せタスクに対して,ニューラルネットワーク予測スコアを再校正するために最適化されたパラメータ効率のスコア強調モデルを提案する。
CQD$mathcalA$は現在の最先端手法よりもはるかに正確な結果が得られる。
論文 参考訳(メタデータ) (2023-01-29T00:17:16Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z) - STaR: Bootstrapping Reasoning With Reasoning [39.45372621632046]
自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。
結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-03-28T03:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。