Fugu-MT 論文翻訳(概要): Soft Self-Consistency Improves Language Model Agents

論文の概要: Soft Self-Consistency Improves Language Model Agents

arxiv url: http://arxiv.org/abs/2402.13212v1
Date: Tue, 20 Feb 2024 18:22:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 13:52:01.959502
Title: Soft Self-Consistency Improves Language Model Agents
Title（参考訳）: ソフトな自己整合性により言語モデルエージェントが改善
Authors: Han Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal
Abstract要約: 現在の「サンプルとセレクト」メソッドは、回答を得るために多数決に頼っている。 Soft Self-Consistency (Soft-SC) は、SCの不連続スコアをモデル確率から計算した連続スコアに置き換える。ソフトSCは、bashプログラムの絶対的な成功率でSCを1.3%上回り、オンラインショッピングでは6.6%増、インタラクティブホームゲームでは4.7%増となっている。
参考スコア（独自算出の注目度）: 62.99249344291538
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generations from large language models (LLMs) can be improved by sampling and scoring multiple solutions to select a final answer. Current "sample and select" methods such as self-consistency (SC) rely on majority voting to score answers. However, when tasks have many distinct and valid answers, selection by voting requires a large number of samples. This makes SC prohibitively expensive for interactive tasks that involve generating multiple actions (answers) sequentially. After establishing that majority voting fails to provide consistent gains on such tasks, we demonstrate how to increase success rates by softening the scoring criterion. We introduce Soft Self-Consistency (Soft-SC), which replaces SC's discontinuous scoring with a continuous score computed from model likelihoods, allowing for selection even when actions are sparsely distributed. Soft-SC improves both performance and efficiency on long-horizon interactive tasks, requiring half as many samples as SC for comparable or better performance. For a fixed number of samples, Soft-SC leads to a 1.3% increase over SC in absolute success rate on writing bash programs, a 6.6% increase on online shopping (WebShop), and a 4.7% increase for an interactive household game (ALFWorld). Finally, we show that Soft-SC can be applied to both open-source and black-box models.
Abstract（参考訳）: 大規模言語モデル(LLM)の生成は、最終的な答えを選択するために複数のソリューションのサンプリングとスコアリングによって改善される。自己整合性(SC)のような現在の「サンプルと選択」手法は、回答を得るために多数決に頼っている。しかし、タスクが多くの異なる、妥当な回答を持つ場合、投票による選択は多くのサンプルを必要とする。これにより、SCは複数のアクション(回答)を逐次生成する対話的なタスクに対して、極めて高価になる。このようなタスクに対して多数決が一貫した利得を得られないことを確立した後、スコアリング基準を軟化して成功率を高める方法を示す。我々は,SCの不連続スコアをモデル確率から計算した連続スコアに置き換えるソフトセルフ一貫性(Soft-SC)を導入する。 soft-scは長時間ホリゾンなインタラクティブタスクのパフォーマンスと効率を向上し、比較やパフォーマンス向上のためにscの半分のサンプルを必要とする。一定の数のサンプルに対して、Soft-SCは、bashプログラムの絶対的な成功率でSCを1.3%上回り、オンラインショッピング(WebShop)では6.6%増、インタラクティブホームゲーム(ALFWorld)では4.7%増となる。最後に,オープンソースモデルとブラックボックスモデルの両方に適用可能であることを示す。

関連論文リスト

dVoting: Fast Voting for dLLMs [71.572316901001]
拡散大言語モデル(dLLMs)は自己回帰モデリングを超えた新しいパラダイムである。 dLLMは任意の位置で任意のトークンを並列に生成できるため、並列テストタイムスケーリングには大きな可能性がある。トレーニングなしで推論能力を高める高速投票手法であるdVotingを導入する。
論文参考訳（メタデータ） (2026-02-12T16:35:05Z)
Optimal Self-Consistency for Efficient Reasoning with Large Language Models [3.74203477986748]
自己整合性(英: Self-Consistency, SC)は、チェーンオブソート推論の性能向上のためのテスト時間推論手法である。本稿では,SCのスケーリング行動とその変種を網羅的に分析し,モード推定と投票理論に基づく。 Blend-ASCは自己整合の新たな変種であり、推論中に動的にサンプルを問合せに割り当てる。
論文参考訳（メタデータ） (2025-11-15T17:45:42Z)
Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency [3.6199690908942546]
自己一貫性(SC)は複数の推論チェーンを並列に生成し、多数決によって最終回答を選択する。 Slim-SCは、思考レベルでチェーン間の類似性を用いて冗長なチェーンを識別・除去するステップワイズプルーニング戦略である。実験によると、Slim-SCはR1-Distillで、それぞれ最大45%と26%のレイテンシとKVC使用量を削減している。
論文参考訳（メタデータ） (2025-09-17T14:00:51Z)
Towards Compute-Optimal Many-Shot In-Context Learning [63.815463719071055]
マルチショットICLにおけるデモ選択のための2つの戦略を提案する。最初の方法は、テストサンプルの類似性に基づいて選択された少数のデモと、キャッシュされるランダムなデモの集合を組み合わせる。第2の戦略は、ランダムなデモをk平均クラスタリングによるテストサンプル表現から選択したセントロイドに置き換えることによって、第1の戦略を改善する。
論文参考訳（メタデータ） (2025-07-22T04:21:03Z)
Selecting Demonstrations for Many-Shot In-Context Learning via Gradient Matching [24.4195026869735]
In-Context Learning (ICL) は大規模言語モデル (LLM) を活用し, 微調整を伴わない迅速なタスク適応を実現するマルチショットICLは、スケールされた実演を通して有望な性能を示すが、マルチショット実演の選択方法は、既存の作業におけるランダムな選択に限られている。そこで本研究では,対象課題のトレーニングセット全体と選択された事例間の微調整勾配を整列させて,実演を選択する新しい勾配マッチング手法を提案し,選択された例内のトレーニングセット全体に対する学習効果にアプローチする。
論文参考訳（メタデータ） (2025-06-05T02:57:05Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性(SC)は、生成されたサンプルの数に比例した計算コストをもたらす。我々は,サンプル生成数を調整する革新的な早期停止フレームワークであるReasoning-Aware Self-Consistency (RASC)を提案する。 RASCはサンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持または改善した。
論文参考訳（メタデータ） (2024-08-30T05:14:59Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。 FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2024-07-02T08:38:31Z)
Atomic Self-Consistency for Better Long Form Generations [12.753854064540636]
原子自己整合性(アトミック自己整合性、Atomic Self-Consistency、ASC)は、長期応答における関連情報のリコールを改善する技術である。 ASCは最近の研究に続いて、複数のサンプルを使用して長期応答を改善するユニバーサル自己整合性(USC)を開発した。広範囲な実験と改善を通じて,複数のサンプルの関連部分を統合することで,単一のサンプルを選択するよりもはるかに優れた性能が得られた。
論文参考訳（メタデータ） (2024-05-21T18:05:44Z)
Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning [15.088675135566646]
自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。我々は,SCのコストを大幅に削減する,シンプルでスケーラブルなサンプリングプロセスである textbfEarpping textbfSelf-textbfConsistency (ESC) を提案する。
論文参考訳（メタデータ） (2024-01-19T04:03:59Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Universal Self-Consistency for Large Language Model Generation [72.6761480346095]
CoT(Self-Consistency with chain-of- Thought prompting)は、困難なタスクにおいて顕著なパフォーマンス向上を示す。本稿では,大規模言語モデル(LLM)を活用し,最も一貫した回答を選択するユニバーサル自己整合性(USC)を提案する。
論文参考訳（メタデータ） (2023-11-29T02:07:09Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)
SelectAugment: Hierarchical Deterministic Sample Selection for Data Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文参考訳（メタデータ） (2021-12-06T08:38:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。