Fugu-MT 論文翻訳(概要): SCREWS: A Modular Framework for Reasoning with Revisions

論文の概要: SCREWS: A Modular Framework for Reasoning with Revisions

arxiv url: http://arxiv.org/abs/2309.13075v1
Date: Wed, 20 Sep 2023 15:59:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-01 12:14:32.412906
Title: SCREWS: A Modular Framework for Reasoning with Revisions
Title（参考訳）: SCREWS: 修正による推論のためのモジュラーフレームワーク
Authors: Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia
Abstract要約: 我々は、リビジョンを伴う推論のためのモジュラーフレームワークであるSCREWSを紹介する。我々は、SCREWSが、共通のフレームワークの下で、いくつかの以前のアプローチを統合することを示す。我々は,多種多様な推論タスクに基づいて,最先端のLCMを用いてフレームワークの評価を行った。
参考スコア（独自算出の注目度）: 58.698199183147935
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) can improve their accuracy on various tasks through iteratively refining and revising their output based on feedback. We observe that these revisions can introduce errors, in which case it is better to roll back to a previous result. Further, revisions are typically homogeneous: they use the same reasoning method that produced the initial answer, which may not correct errors. To enable exploration in this space, we present SCREWS, a modular framework for reasoning with revisions. It is comprised of three main modules: Sampling, Conditional Resampling, and Selection, each consisting of sub-modules that can be hand-selected per task. We show that SCREWS not only unifies several previous approaches under a common framework, but also reveals several novel strategies for identifying improved reasoning chains. We evaluate our framework with state-of-the-art LLMs (ChatGPT and GPT-4) on a diverse set of reasoning tasks and uncover useful new reasoning strategies for each: arithmetic word problems, multi-hop question answering, and code debugging. Heterogeneous revision strategies prove to be important, as does selection between original and revised candidates.
Abstract（参考訳）: 大規模言語モデル(LLM)は、フィードバックに基づいて出力を反復的に精製し、修正することで、様々なタスクにおける精度を向上させることができる。これらのリビジョンはエラーをもたらす可能性があるので、以前の結果にロールバックする方がよい。さらに、リビジョンは一般的に均質であり、最初の回答を生成するのと同じ推論方法を使うが、エラーを訂正することはない。この領域での探索を可能にするために、我々はSCREWSというモジュラーフレームワークを紹介した。サンプリング、条件付き再サンプリング、選択という3つの主要なモジュールで構成されており、それぞれがタスク毎に手動選択可能なサブモジュールで構成されている。以上の結果から,ネジは複数のアプローチを共通の枠組みで統一するだけでなく,改良された推論連鎖を特定するための新しい手法もいくつか見いだせる。我々は,従来のLCM (ChatGPT と GPT-4) を多種多様な推論タスクで評価し,算術語問題,マルチホップ質問応答,コードデバッグなど,それぞれに有用な新しい推論戦略を明らかにする。異質な修正戦略は、オリジナル候補と改訂候補の間の選択と同様に重要であることが証明される。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
ComposeRAG: A Modular and Composable RAG for Corpus-Grounded Multi-Hop Question Answering [42.238086712267396]
ComposeRAGは、RAGパイプラインをアトミックで構成可能なモジュールに分解する、新しいモジュラー抽象化である。精度と接地忠実性の両方において、一貫して強いベースラインを上回ります。検証ファーストの設計は、低品質の検索設定において、未解決の回答を10%以上削減する。
論文参考訳（メタデータ） (2025-05-30T21:10:30Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models [4.328173053224842]
本稿では、自己干渉パラダイムによる推論を改善するために設計された新しいプロンプト技術であるSQuAREを紹介する。 CoTフレームワーク上に構築されているSQuAREでは,メインクエリに対処する前に,複数の補助的な質問の生成と解決をモデルに促している。 Llama 3 と GPT-4o モデルを用いて複数の質問応答データセットを用いて評価を行った結果,SQuARE が従来の CoT プロンプトや既存のrephrase-and- corresponding 手法をはるかに上回っていることが示された。
論文参考訳（メタデータ） (2025-02-13T15:07:20Z)
Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension [9.67774998354062]
これまでの研究は主に、Chain-of-Thought(CoT)やデータ拡張による論理的推論能力の向上に重点を置いてきた。本稿では,CoTの論理式を生成するためのPODA(Premise-Oriented Data Augmentation)フレームワークを提案する。また,本論文では,原案と反実例の推論経路を比較検討する新たな思考経路コントラスト学習手法についても紹介する。
論文参考訳（メタデータ） (2024-09-22T15:44:43Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文参考訳（メタデータ） (2024-05-23T11:00:19Z)
Continual Referring Expression Comprehension via Dual Modular Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文参考訳（メタデータ） (2023-11-25T02:58:51Z)
Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts [65.15322403136238]
我々は,多種多様な推論の思考をLCMに促すことにより,総合的な問題解決フレームワーク XoT を提案する。各質問に対して、XoTは常に最も適切なメソッドを選択して始まり、各メソッドを反復的に実行する。各イテレーション内で、XoTは生成された回答の有効性を積極的にチェックし、外部エグゼクタからのフィードバックを取り入れます。
論文参考訳（メタデータ） (2023-10-23T07:02:20Z)
Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は比較的未調査です後方推論は前方推論の「逆」と見なすことができます性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文参考訳（メタデータ） (2023-10-03T12:03:06Z)
Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。 CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文参考訳（メタデータ） (2023-09-12T14:36:23Z)
To Revise or Not to Revise: Learning to Detect Improvable Claims for Argumentative Writing Support [20.905660642919052]
特定の修正が必要な議論的クレームを特定するための主な課題について検討する。本稿では,リビジョン距離に基づく新しいサンプリング戦略を提案する。文脈情報とドメイン知識を用いることで、予測結果をさらに改善できることを示す。
論文参考訳（メタデータ） (2023-05-26T10:19:54Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)
Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning [14.663216851932646]
言語モデルは1ステップの推論タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップをチェーン化するのに苦労している。本稿では,事前学習したLLMを汎用処理モジュールとして活用する選択推論(SI)フレームワークを提案する。 5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM が微調整なしで,100% 以上の性能向上が得られることを示す。
論文参考訳（メタデータ） (2022-05-19T17:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。