Fugu-MT 論文翻訳(概要): Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval

論文の概要: Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval

arxiv url: http://arxiv.org/abs/2308.04711v2
Date: Sat, 12 Aug 2023 00:02:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 18:22:14.604789
Title: Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval
Title（参考訳）: Rationale 生成とDense Retrieval を用いた小型言語モデルによる未知の質問への回答
Authors: Tim Hartill, Diana Benavides-Prado, Michael Witbrock, Patricia J. Riddle
Abstract要約: スモールランゲージモデルは、質問応答課題に挑戦する上で、強力な推論能力を示すことが示されている。この設定でさらに改善する2つの方法を評価する。 4億4000万のパラメータしか使用していない1つの最良の推論モデルは、見当たらない評価データセットに対して、強力な比較前のベースラインを大幅に改善します。
参考スコア（独自算出の注目度）: 9.136948771060895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When provided with sufficient explanatory context, smaller Language Models have been shown to exhibit strong reasoning ability on challenging short-answer question-answering tasks where the questions are unseen in training. We evaluate two methods for further improvement in this setting. Both methods focus on combining rationales generated by a larger Language Model with longer contexts created from a multi-hop dense retrieval system. The first method ($\textit{RR}$) involves training a Rationale Ranking model to score both generated rationales and retrieved contexts with respect to relevance and truthfulness. We then use the scores to derive combined contexts from both knowledge sources using a number of combinatory strategies. For the second method ($\textit{RATD}$) we train a smaller Reasoning model using retrieval-augmented training datasets such that it becomes proficient at utilising relevant information from longer text sequences that may be only partially evidential and frequently contain many irrelevant sentences. Generally we find that both methods are effective but that the $\textit{RATD}$ method is more straightforward to apply and produces the strongest results in the unseen setting on which we focus. Our single best Reasoning model using only 440 million parameters materially improves upon strong comparable prior baselines for unseen evaluation datasets (StrategyQA 58.9 $\rightarrow$ 61.7 acc., CommonsenseQA 63.6 $\rightarrow$ 72.7 acc., ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1) and a version utilising our prior knowledge of each type of question in selecting a context combination strategy does even better. Our proposed models also generally outperform direct prompts against much larger models (BLOOM 175B and StableVicuna 13B) in both few-shot chain-of-thought and few-shot answer-only settings.
Abstract（参考訳）: 十分な説明的文脈が与えられると、より小さな言語モデルが、質問が訓練中に見当たらない短い質問応答タスクに対して強い推論能力を示すことが示される。この設定でさらに改善する2つの方法を評価する。どちらの手法も、より大きな言語モデルによって生成される有理性と、マルチホップ高密度検索システムから生成される長いコンテキストを組み合わせることに重点を置いている。最初のメソッド($\textit{RR}$)では、Rationale Rankingモデルをトレーニングして、生成した有理性と検索されたコンテキストの両方を関連性および真理性に関してスコア付けする。次に、これらのスコアを用いて、複数の組み合わせ戦略を用いて、両方の知識ソースから組み合わせたコンテキストを導出する。 2つ目の方法(\textit{RATD}$)では、検索強化トレーニングデータセットを使用してより小さな推論モデルをトレーニングし、部分的には明確で、多くの無関係な文を含むかもしれない長いテキストシーケンスから関連する情報を利用するのに熟練した。一般的に、両方のメソッドは有効であるが、$\textit{ratd}$メソッドの方が適用が簡単で、私たちが焦点を当てている見えない設定で最も強い結果を生み出す。たった4億4000万のパラメータを使った唯一の最善の推論モデルは、未発見の評価データセット(strategyqa 58.9 $\rightarrow$ 61.7 acc)の強力な比較基準によって、物質的に改善されます。詳細はCommonsenseQA 63.6 $\rightarrow$ 72.7 acc. を参照のこと。 ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1 と、コンテキストの組み合わせ戦略を選択する際の各質問の事前知識を利用するバージョンは、さらに優れている。提案したモデルは、通常、より大型のモデル(BLOOM 175BとStableVicuna 13B)に対して、数発のチェーンと数発の応答のみの設定の両方で直接のプロンプトより優れている。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
T$^2$: An Adaptive Test-Time Scaling Strategy for Contextual Question Answering [49.5489716597489]
T$2$: Think-to-Thinkは質問の複雑さに基づいて推論深度を動的に適応する新しいフレームワークである。 T$2$は、質問を構造的要素に分解し、候補推論戦略と同じような例を生成し、これらの戦略を複数の基準に対して評価し、元の質問に最も適切な戦略を適用する、という4つの重要なステップで機能する。
論文参考訳（メタデータ） (2025-05-23T03:18:02Z)
Teaching Smaller Language Models To Generalise To Unseen Compositional Questions (Full Thesis) [0.0]
私たちは、検索したコンテキストを推論する能力を注入することで、さまざまな質問に答えるようにモデルを訓練します。 2つの知識ソースからコンテキストを取得し、ウィキペディアコーパスは、新しい拡張を持つマルチホップ高密度検索システムを用いてクエリし、より大規模な言語モデルから生成された論理から、より低いリソース環境下での動作を最適化した。
論文参考訳（メタデータ） (2024-11-25T23:25:34Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文参考訳（メタデータ） (2024-10-14T19:39:11Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショット CoT と少数ショット CoT を超越する。
論文参考訳（メタデータ） (2024-03-13T03:15:05Z)
Teaching Smaller Language Models To Generalise To Unseen Compositional Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-02T05:00:12Z)
Adapting Neural Link Predictors for Data-Efficient Complex Query Answering [45.961111441411084]
本稿では,複雑な問合せタスクに対して,ニューラルネットワーク予測スコアを再校正するために最適化されたパラメータ効率のスコア強調モデルを提案する。 CQD$mathcalA$は現在の最先端手法よりもはるかに正確な結果が得られる。
論文参考訳（メタデータ） (2023-01-29T00:17:16Z)
Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文参考訳（メタデータ） (2022-12-19T11:26:23Z)
UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文参考訳（メタデータ） (2022-12-02T04:08:09Z)
Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文参考訳（メタデータ） (2022-10-13T15:18:04Z)
Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文参考訳（メタデータ） (2022-05-25T05:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。