Fugu-MT 論文翻訳(概要): STaR: Bootstrapping Reasoning With Reasoning

論文の概要: STaR: Bootstrapping Reasoning With Reasoning

arxiv url: http://arxiv.org/abs/2203.14465v1
Date: Mon, 28 Mar 2022 03:12:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-29 12:18:05.180365
Title: STaR: Bootstrapping Reasoning With Reasoning
Title（参考訳）: STaR: ブートストラップ推論と推論
Authors: Eric Zelikman, Yuhuai Wu, Noah D. Goodman
Abstract要約: 自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
参考スコア（独自算出の注目度）: 39.45372621632046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating step-by-step "chain-of-thought" rationales improves language model performance on complex reasoning tasks like mathematics or commonsense question-answering. However, inducing language model rationale generation currently requires either constructing massive rationale datasets or sacrificing accuracy by using only few-shot inference. We propose a technique to iteratively leverage a small number of rationale examples and a large dataset without rationales, to bootstrap the ability to perform successively more complex reasoning. This technique, the "Self-Taught Reasoner" (STaR), relies on a simple loop: generate rationales to answer many questions, prompted with a few rationale examples; if the generated answers are wrong, try again to generate a rationale given the correct answer; fine-tune on all the rationales that ultimately yielded correct answers; repeat. We show that STaR significantly improves performance on multiple datasets compared to a model fine-tuned to directly predict final answers, and performs comparably to fine-tuning a 30$\times$ larger state-of-the-art language model on CommensenseQA. Thus, STaR lets a model improve itself by learning from its own generated reasoning.
Abstract（参考訳）: ステップバイステップの「チェーンオブ思考」論理の生成は、数学や常識的質問応答のような複雑な推論タスクにおける言語モデルのパフォーマンスを向上させる。しかし、現在、言語モデルの合理性生成を誘導するには、大規模な合理性データセットを構築するか、数ショットの推論のみを使用することで精度を犠牲にするどちらかが必要である。本稿では,合理的な推論を連続的に行う能力をブートストラップするために,論理例と大規模データセットを反復的に活用する手法を提案する。このテクニックは、"自己学習推論者" (star) という単純なループに依存している: 多くの質問に答える合理性を生成し、いくつかの合理性のある例で促す; 生成された回答が間違っているなら、正しい答えが与えられた合理性を生成するようもう一度試みる; 最終的に正しい答えをもたらすすべての合理性に微調整する; 繰り返す。結果,STaRは最終回答を直接予測するために微調整されたモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させ,CommensenseQA上で30$\times$大の最先端言語モデルに適合することを示した。したがって、STaRはモデルが生成した推論から学習することで、モデルを改善できる。

関連論文リスト

Are More Tokens Rational? Inference-Time Scaling in Language Models as Adaptive Resource Rationality [1.5994376682356057]
本稿では,変数が与えられた候補変数,入出力試行,事前定義された論理関数をどの変数が決定するかを推定する可変属性タスクを提案する。どちらのモデルも、複雑さが増加するにつれて、ブルートフォースから分析戦略への移行を示す。これらの結果から,コストベースの報酬を伴わないモデルでも,タスクの複雑さに応じて推論動作を調整できることが示唆された。
論文参考訳（メタデータ） (2026-02-10T22:07:05Z)
Learning to Reason in LLMs by Expectation Maximization [55.721496945401846]
我々は推論を潜在変数モデルとして定式化し、推論を学ぶための期待最大化目標を導出する。この見解はEMと現代の報酬に基づく最適化を結びつけるものであり、正しい答えを正当化する有理性を生成するサンプリング分布を設計することの主な課題であることを示している。
論文参考訳（メタデータ） (2025-12-23T08:56:49Z)
From Answers to Rationales: Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought [43.07899102255169]
現在のメソッドは主に肯定的な論理に重点を置いており、通常は手動のアノテーションや複雑なシステムに依存している。 textbfSelf-Aligning textbfMultimodal Reasoning with textbfAnswertextbfriented Chain-of-textbfThought。
論文参考訳（メタデータ） (2025-07-01T08:24:51Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文参考訳（メタデータ） (2024-04-10T14:05:44Z)
How Ambiguous are the Rationales for Natural Language Reasoning? A Simple Approach to Handling Rationale Uncertainty [0.0]
答の背後にある合理性は、モデル決定を説明するだけでなく、複雑な推論タスクをうまく推理するために言語モデルを促進する。モデルパフォーマンスを促進するのに十分な根拠が忠実である程度を見積もるのは簡単ではない。本稿では,不完全理理性に対処する方法を提案する。
論文参考訳（メタデータ） (2024-02-22T07:12:34Z)
Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。 MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文参考訳（メタデータ） (2023-11-23T17:09:48Z)
ZARA: Improving Few-Shot Self-Rationalization for Small Language Models [29.755148112827502]
本稿では,自己学習のための擬似並列データを自動的に構築するためのZARA(Zero-shot Augmentation of Rationale-Answer pairs)を提案する。 ZARAは、タスク精度と説明基準の両方において、FEBベンチマーク上でSOTA性能を達成する。
論文参考訳（メタデータ） (2023-05-12T10:07:12Z)
Reasoning Circuits: Few-shot Multihop Question Generation with Structured Rationales [11.068901022944015]
連鎖論理生成は多段階推論タスクの性能を向上させることが示されている。極めて低い監督体制下でのマルチホップ質問生成にチェーン・オブ・インスパイアされた構造的合理的生成を適用するための新しい枠組みを導入する。
論文参考訳（メタデータ） (2022-11-15T19:36:06Z)
Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文参考訳（メタデータ） (2022-10-03T05:33:27Z)
Rationales for Sequential Predictions [117.93025782838123]
シーケンスモデルは現代のNLPシステムにおいて重要な要素であるが、それらの予測は説明が難しい。モデル説明は有理だが、個々のモデル予測を説明できる文脈のサブセットを考える。この目的を近似する効率的なグリードアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-09-14T01:25:15Z)
Text Modular Networks: Learning to Decompose Tasks in the Language of Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文参考訳（メタデータ） (2020-09-01T23:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。