Fugu-MT 論文翻訳(概要): Teaching Broad Reasoning Skills via Decomposition-Guided Contexts

論文の概要: Teaching Broad Reasoning Skills via Decomposition-Guided Contexts

arxiv url: http://arxiv.org/abs/2205.12496v1
Date: Wed, 25 May 2022 05:13:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-26 12:27:18.258047
Title: Teaching Broad Reasoning Skills via Decomposition-Guided Contexts
Title（参考訳）: 分解誘導による広帯域推論スキルの指導
Authors: Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal
Abstract要約: 質問に答えるデータセットには、幅広い推論スキルが必要です。質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
参考スコア（独自算出の注目度）: 50.114651561111245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Question-answering datasets require a broad set of reasoning skills. We show how to use question decompositions to teach language models these broad reasoning skills in a robust fashion. Specifically, we use widely available QDMR representations to programmatically create synthetic contexts for real questions in six multihop reasoning datasets. These contexts are carefully designed to avoid common reasoning shortcuts prevalent in real contexts that prevent models from learning the right skills. This results in a pretraining dataset, named TeaBReaC, containing 525K multihop questions (with associated formal programs) covering about 900 reasoning patterns. We show that pretraining standard language models (LMs) on TeaBReaC before fine-tuning them on target datasets improves their performance by up to 13 EM points across 3 multihop QA datasets, with a 30 point gain on more complex questions. The resulting models also demonstrate higher robustness, with a 6-11 point improvement on two contrast sets. Furthermore, TeaBReaC pretraining substantially improves model performance and robustness even when starting with numeracy-aware LMs pretrained using recent methods (e.g., PReasM). Our work thus shows how one can effectively use decomposition-guided contexts to robustly teach multihop reasoning.
Abstract（参考訳）: 質問応答データセットは、幅広い推論スキルを必要とする。質問分解を用いて、これらの広い推論スキルを堅牢な方法で言語モデルを教える方法を示す。具体的には、利用可能なQDMR表現を用いて、6つのマルチホップ推論データセットにおいて、実際の質問に対する合成コンテキストをプログラム的に生成する。これらのコンテキストは、モデルが適切なスキルを学ぶことを妨げる実際のコンテキストに共通する推論ショートカットを避けるために慎重に設計されている。その結果、およそ900の推論パターンをカバーする525kのマルチホップ質問(関連する形式的プログラムを含む)を含む、事前学習データセットteabreacが誕生した。本研究では,TeaBReaC上での標準言語モデル(LM)の事前トレーニングを目標データセット上で微調整することで,3つのマルチホップQAデータセット間で最大13 EMポイントの性能向上を実現し,より複雑な質問に対して30ポイント向上することを示す。結果として得られたモデルは、2つのコントラストセットで6-11ポイント改善され、より高いロバスト性を示す。さらに、TeaBReaC事前学習は、最近の手法(例えばPReasM)で事前訓練された数値対応LMから始めると、モデル性能と堅牢性を大幅に向上する。そこで本研究では,マルチホップ推論を頑健に教えるために,分解誘導コンテキストを効果的に利用できることを示す。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文参考訳（メタデータ） (2025-02-21T00:48:32Z)
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組むまた,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-02-11T08:48:48Z)
STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文参考訳（メタデータ） (2024-11-29T11:54:55Z)
Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文参考訳（メタデータ） (2024-10-21T17:00:06Z)
Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文参考訳（メタデータ） (2024-02-27T16:15:03Z)
Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文参考訳（メタデータ） (2024-02-06T04:14:09Z)
Investigating the Efficacy of Large Language Models in Reflective Assessment Methods through Chain of Thoughts Prompting [0.2552922646705803]
複雑な推論タスクにおけるLLMの習熟度を高める手段として、Chain of Thought(CoT)プロンプト法が提案されている。本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。
論文参考訳（メタデータ） (2023-09-30T06:25:27Z)
Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval [9.136948771060895]
この設定でさらに改善する2つの方法を評価する。どちらも、より大きな言語モデルによって生成された合理性と、マルチホップ密度検索システムから生成された長いコンテキストを組み合わせることに焦点を当てている。我々の最高の推論モデルは、見当たらない評価データセットに対して、強い比較前のベースラインを大幅に改善します。
論文参考訳（メタデータ） (2023-08-09T05:06:39Z)
STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文参考訳（メタデータ） (2023-02-13T22:34:02Z)
How Well Do Multi-hop Reading Comprehension Models Understand Date Information? [31.243088887839257]
比較問題に対する解答を見つける際に、複数のホップモデルがステップバイステップの推論を行う能力は、まだ不明である。また、内部推論プロセスに関する質問が、質問応答システム(QA)のトレーニングや評価にどのように役立つかは、不明である。
論文参考訳（メタデータ） (2022-10-11T07:24:07Z)
Turning Tables: Generating Examples from Semi-structured Tables for Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。 16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-07-15T11:37:14Z)
Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文参考訳（メタデータ） (2021-04-18T07:00:48Z)
Logic-Guided Data Augmentation and Regularization for Consistent Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文参考訳（メタデータ） (2020-04-21T17:03:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。