論文の概要: REFINER: Reasoning Feedback on Intermediate Representations
- arxiv url: http://arxiv.org/abs/2304.01904v1
- Date: Tue, 4 Apr 2023 15:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:11:46.577001
- Title: REFINER: Reasoning Feedback on Intermediate Representations
- Title(参考訳): ReFINER: 中間表現に対するフィードバックの推論
- Authors: Debjit Paul, Mete Ismayilzada, Maxime Peyrard, Beatriz Borges, Antoine
Bosselut, Robert West, and Boi Faltings
- Abstract要約: 中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
- 参考スコア(独自算出の注目度): 62.550414647509925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) have recently shown remarkable performance on reasoning
tasks by explicitly generating intermediate inferences, e.g., chain-of-thought
prompting. However, these intermediate inference steps may be inappropriate
deductions from the initial context and lead to incorrect final predictions.
Here we introduce REFINER, a framework for finetuning LMs to explicitly
generate intermediate reasoning steps while interacting with a critic model
that provides automated feedback on the reasoning. Specifically, the critic
provides structured feedback that the reasoning LM uses to iteratively improve
its intermediate arguments. Empirical evaluations of REFINER on three diverse
reasoning tasks show significant improvements over baseline LMs of comparable
scale. Furthermore, when using GPT3.5 as the reasoner, the trained critic
significantly improves reasoning without finetuning the reasoner. Finally, our
critic model is trained without expensive human-in-the-loop data but can be
substituted with humans at inference time.
- Abstract(参考訳): 言語モデル(LM)は、最近、中間推論を明示的に生成することで推論タスクに顕著な性能を示した。
しかし、これらの中間推論ステップは、初期文脈からの不適切な推論であり、誤った最終予測をもたらす可能性がある。
本稿では,lmsを微調整し,中間的推論ステップを明示的に生成するフレームワークであるrefinerについて紹介する。
具体的には、批判者はLMが中間引数を反復的に改善するために使用する推論に関する構造化されたフィードバックを提供する。
3つの多様な推論タスクにおけるREFINERの実証評価は、同等のスケールのベースラインLMよりも大幅に改善されている。
さらに, GPT3.5を推理器として使用する場合, 推理器を微調整することなく推理を著しく改善する。
最後に、当社の批判モデルは、高価なループ内データなしでトレーニングされますが、推論時に人間に置き換えることができます。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning [38.60086807496399]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。
モデルの最終回答がどの程度、説明された推論ステップに忠実であるかは定かではない。
FRODOは、小さなLMを調整して正しい推論ステップを生成し、これらのステップに対して堅牢な推論を行うためのフレームワークである。
論文 参考訳(メタデータ) (2024-02-21T17:23:59Z) - SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation [78.23119125463964]
我々は,参照フリー推論評価における新規な設計手法であるSocREvalを開発した。
SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っている。
論文 参考訳(メタデータ) (2023-09-29T18:25:46Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Forget-me-not! Contrastive Critics for Mitigating Posterior Collapse [20.258298183228824]
我々は,潜伏変数と観測値の対応を必要とする事で,後部崩壊を検知し,インセンティブを与える推論評論家を紹介した。
このアプローチは実装が簡単で、事前のメソッドよりもトレーニング時間が大幅に少なくなります。
論文 参考訳(メタデータ) (2022-07-19T20:07:17Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。