論文の概要: The ART of LLM Refinement: Ask, Refine, and Trust
- arxiv url: http://arxiv.org/abs/2311.07961v1
- Date: Tue, 14 Nov 2023 07:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 15:03:00.473474
- Title: The ART of LLM Refinement: Ask, Refine, and Trust
- Title(参考訳): LLMリファインメントのART: Ask, Refine, Trust
- Authors: Kumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram
Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz
- Abstract要約: ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
- 参考スコア(独自算出の注目度): 85.75059530612882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Large Language Models (LLMs) have demonstrated remarkable
generative abilities, but can they judge the quality of their own generations?
A popular concept, referred to as self-refinement, postulates that LLMs can
detect and correct the errors in their generations when asked to do so.
However, recent empirical evidence points in the opposite direction, suggesting
that LLMs often struggle to accurately identify errors when reasoning is
involved. To address this, we propose a reasoning with refinement objective
called ART: Ask, Refine, and Trust, which asks necessary questions to decide
when an LLM should refine its output, and either affirm or withhold trust in
its refinement by ranking the refinement and the initial prediction. On two
multistep reasoning tasks of mathematical word problems (GSM8K) and question
answering (StrategyQA), ART achieves a performance gain of +5 points over
self-refinement baselines, while using a much smaller model as the decision
maker. We also demonstrate the benefit of using smaller models to make
refinement decisions as a cost-effective alternative to fine-tuning a larger
model.
- Abstract(参考訳): 近年、Large Language Models (LLMs) は顕著な生成能力を示しているが、彼らは自身の世代の品質を判断できるだろうか?
一般的な概念である自己補充(self-refinement)は、LSMが世代内のエラーを検出し、修正することができると仮定している。
しかし、最近の実証的な証拠は反対方向に向けられており、LSMは推論が関与する際の誤りを正確に識別するのに苦労することが多いことを示唆している。
そこで,本研究では,llmがいつその成果を洗練すべきかを判断するために必要な質問を問う「art: ask, refine, and trust」という,改良目的の推論を提案し,改善度と初期予測をランク付けしてその改善に対する信頼を肯定するか,あるいは保持するかを提案する。
数式語問題 (GSM8K) と質問応答 (StrategyQA) の2つの多段階推論タスクにおいて、ARTは意思決定者としてはるかに小さなモデルを使用しながら、自己修正ベースラインよりも+5ポイントの性能向上を達成する。
また、より小さなモデルを使って、より大きなモデルを微調整するコスト効率の高い代替手段として、リファインメント決定を行うことのメリットも示します。
関連論文リスト
- Large Language Models have Intrinsic Self-Correction Ability [16.831123666582755]
大規模言語モデルは、性能劣化を引き起こす幻覚に悩まされる。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - SELF-[IN]CORRECT: LLMs Struggle with Discriminating Self-Generated Responses [49.148206387394936]
モデルでは、初期応答を生成するよりも、以前に生成した代替品間での識別性が確実に向上しないことが示される。
この発見は LLM が自身の判断によってのみ性能を向上させることができるという概念に挑戦する。
論文 参考訳(メタデータ) (2024-04-04T20:27:37Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Measuring Moral Inconsistencies in Large Language Models [16.47371312298185]
大言語モデル(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。
現状のLLMでさえ、その世代では非常に不整合であり、信頼性に疑問を呈している。
本稿では,SGE (Semantic Graph Entropy) と呼ばれる新たな情報理論尺度を提案する。
論文 参考訳(メタデータ) (2024-01-26T18:05:47Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。