論文の概要: Soft Self-Consistency Improves Language Model Agents
- arxiv url: http://arxiv.org/abs/2402.13212v1
- Date: Tue, 20 Feb 2024 18:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 13:52:01.959502
- Title: Soft Self-Consistency Improves Language Model Agents
- Title(参考訳): ソフトな自己整合性により言語モデルエージェントが改善
- Authors: Han Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal
- Abstract要約: 現在の「サンプルとセレクト」メソッドは、回答を得るために多数決に頼っている。
Soft Self-Consistency (Soft-SC) は、SCの不連続スコアをモデル確率から計算した連続スコアに置き換える。
ソフトSCは、bashプログラムの絶対的な成功率でSCを1.3%上回り、オンラインショッピングでは6.6%増、インタラクティブホームゲームでは4.7%増となっている。
- 参考スコア(独自算出の注目度): 62.99249344291538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generations from large language models (LLMs) can be improved by sampling and
scoring multiple solutions to select a final answer. Current "sample and
select" methods such as self-consistency (SC) rely on majority voting to score
answers. However, when tasks have many distinct and valid answers, selection by
voting requires a large number of samples. This makes SC prohibitively
expensive for interactive tasks that involve generating multiple actions
(answers) sequentially. After establishing that majority voting fails to
provide consistent gains on such tasks, we demonstrate how to increase success
rates by softening the scoring criterion. We introduce Soft Self-Consistency
(Soft-SC), which replaces SC's discontinuous scoring with a continuous score
computed from model likelihoods, allowing for selection even when actions are
sparsely distributed. Soft-SC improves both performance and efficiency on
long-horizon interactive tasks, requiring half as many samples as SC for
comparable or better performance. For a fixed number of samples, Soft-SC leads
to a 1.3% increase over SC in absolute success rate on writing bash programs, a
6.6% increase on online shopping (WebShop), and a 4.7% increase for an
interactive household game (ALFWorld). Finally, we show that Soft-SC can be
applied to both open-source and black-box models.
- Abstract(参考訳): 大規模言語モデル(LLM)の生成は、最終的な答えを選択するために複数のソリューションのサンプリングとスコアリングによって改善される。
自己整合性(SC)のような現在の「サンプルと選択」手法は、回答を得るために多数決に頼っている。
しかし、タスクが多くの異なる、妥当な回答を持つ場合、投票による選択は多くのサンプルを必要とする。
これにより、SCは複数のアクション(回答)を逐次生成する対話的なタスクに対して、極めて高価になる。
このようなタスクに対して多数決が一貫した利得を得られないことを確立した後、スコアリング基準を軟化して成功率を高める方法を示す。
我々は,SCの不連続スコアをモデル確率から計算した連続スコアに置き換えるソフトセルフ一貫性(Soft-SC)を導入する。
soft-scは長時間ホリゾンなインタラクティブタスクのパフォーマンスと効率を向上し、比較やパフォーマンス向上のためにscの半分のサンプルを必要とする。
一定の数のサンプルに対して、Soft-SCは、bashプログラムの絶対的な成功率でSCを1.3%上回り、オンラインショッピング(WebShop)では6.6%増、インタラクティブホームゲーム(ALFWorld)では4.7%増となる。
最後に,オープンソースモデルとブラックボックスモデルの両方に適用可能であることを示す。
関連論文リスト
- Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step
Reasoning [15.088675135566646]
自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。
我々は,SCのコストを大幅に削減する,シンプルでスケーラブルなサンプリングプロセスである textbfEarpping textbfSelf-textbfConsistency (ESC) を提案する。
論文 参考訳(メタデータ) (2024-01-19T04:03:59Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Universal Self-Consistency for Large Language Model Generation [72.6761480346095]
CoT(Self-Consistency with chain-of- Thought prompting)は、困難なタスクにおいて顕著なパフォーマンス向上を示す。
本稿では,大規模言語モデル(LLM)を活用し,最も一貫した回答を選択するユニバーサル自己整合性(USC)を提案する。
論文 参考訳(メタデータ) (2023-11-29T02:07:09Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Data Curation Alone Can Stabilize In-context Learning [20.874674130060388]
In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。
トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
トレーニングデータのサブセットを慎重にキュレートすることは、ICLアルゴリズムに他の変更を加えることなく、ICLのパフォーマンスを大幅に安定化させることを示す。
論文 参考訳(メタデータ) (2022-12-20T15:58:54Z) - SelectAugment: Hierarchical Deterministic Sample Selection for Data
Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。
具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。
これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文 参考訳(メタデータ) (2021-12-06T08:38:38Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。