Fugu-MT 論文翻訳(概要): Universal Self-Consistency for Large Language Model Generation

論文の概要: Universal Self-Consistency for Large Language Model Generation

arxiv url: http://arxiv.org/abs/2311.17311v1
Date: Wed, 29 Nov 2023 02:07:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 22:51:58.509306
Title: Universal Self-Consistency for Large Language Model Generation
Title（参考訳）: 大言語モデル生成のための普遍的自己整合性
Authors: Xinyun Chen, Renat Aksitov, Uri Alon, Jie Ren, Kefan Xiao, Pengcheng Yin, Sushant Prakash, Charles Sutton, Xuezhi Wang, Denny Zhou
Abstract要約: CoT(Self-Consistency with chain-of- Thought prompting)は、困難なタスクにおいて顕著なパフォーマンス向上を示す。本稿では,大規模言語モデル(LLM)を活用し,最も一貫した回答を選択するユニバーサル自己整合性(USC)を提案する。
参考スコア（独自算出の注目度）: 72.6761480346095
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-consistency with chain-of-thought prompting (CoT) has demonstrated remarkable performance gains on various challenging tasks, by utilizing multiple reasoning paths sampled from large language models (LLMs). However, self-consistency relies on the answer extraction process to aggregate multiple solutions, which is not applicable to free-form answers. In this work, we propose Universal Self-Consistency (USC), which leverages LLMs themselves to select the most consistent answer among multiple candidates. We evaluate USC on a variety of benchmarks, including mathematical reasoning, code generation, long-context summarization, and open-ended question answering. On open-ended generation tasks where the original self-consistency method is not applicable, USC effectively utilizes multiple samples and improves the performance. For mathematical reasoning, USC matches the standard self-consistency performance without requiring the answer formats to be similar. Finally, without access to execution results, USC also matches the execution-based voting performance on code generation.
Abstract（参考訳）: CoTは,大規模言語モデル(LLM)から抽出した複数の推論経路を利用することにより,様々な課題に対して顕著な性能向上を示した。しかし、自己整合性は解の抽出過程に依存して複数の解を集約し、自由形式の解には適用できない。本研究では,LLM自体を活用し,複数の候補の中から最も一貫した回答を選択するユニバーサル自己整合性(USC)を提案する。我々は,数理推論,コード生成,long-context summarization,open-ended question answeringなど,さまざまなベンチマークでuscを評価した。従来の自己整合性手法が適用できないオープンエンド生成タスクにおいて,USCは複数のサンプルを有効利用し,性能を向上する。数学的推論では、USCは解答形式を類似させることなく、標準的な自己整合性能と一致する。最後に、USCは実行結果にアクセスせずに、コード生成の実行ベースの投票パフォーマンスにマッチする。

関連論文リスト

Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
Integrative Decoding: Improve Factuality via Implicit Self-consistency [45.27124252002816]
自己整合性に基づくアプローチは,大規模言語モデルの現実的精度向上に極めて有効である。我々は、オープンな生成タスクにおける自己整合性の可能性を解き放つために、統合的復号化(ID)を提案する。
論文参考訳（メタデータ） (2024-10-02T13:52:55Z)
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文参考訳（メタデータ） (2024-09-18T17:55:00Z)
Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性(SC)は、生成されたサンプルの数に比例した計算コストをもたらす。我々は,サンプル生成数を調整する革新的な早期停止フレームワークであるReasoning-Aware Self-Consistency (RASC)を提案する。 RASCはサンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持または改善した。
論文参考訳（メタデータ） (2024-08-30T05:14:59Z)
Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。 FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2024-07-02T08:38:31Z)
Atomic Self-Consistency for Better Long Form Generations [12.753854064540636]
原子自己整合性(アトミック自己整合性、Atomic Self-Consistency、ASC)は、長期応答における関連情報のリコールを改善する技術である。 ASCは最近の研究に続いて、複数のサンプルを使用して長期応答を改善するユニバーサル自己整合性(USC)を開発した。広範囲な実験と改善を通じて,複数のサンプルの関連部分を統合することで,単一のサンプルを選択するよりもはるかに優れた性能が得られた。
論文参考訳（メタデータ） (2024-05-21T18:05:44Z)
Soft Self-Consistency Improves Language Model Agents [57.66282463340297]
現在の「サンプルとセレクト」メソッドは、回答を得るために多数決に頼っている。 SOFT-SC(Soft Self-Consistency)は、SCの不連続スコアをモデル確率から計算した連続スコアに置き換える。一定の数のサンプルに対して、SOFT-SCはSCを1.3%上回り、bashプログラムの絶対的な成功率、オンラインショッピングの6.6%増、インタラクティブホームゲームでは4.7%増となる。
論文参考訳（メタデータ） (2024-02-20T18:22:38Z)
Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。しかし、単一の試みで正しいソリューションを生成することは依然として課題である。本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T14:23:26Z)
Universal Self-Adaptive Prompting [60.67460565566514]
Universal Self-Adaptive Prompting (USP) はゼロショット学習に適した自動プロンプト設計手法である。 USPは普遍的なプロンプトを達成するために、可能なNLPタスクを3つの可能なタスクタイプのうちの1つに分類する。我々は,PaLMおよびPaLM 2モデルを用いてUSPを評価し,標準ゼロショットベースラインよりもかなり強い性能を示す。
論文参考訳（メタデータ） (2023-05-24T09:09:48Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。