論文の概要: DiversiGATE: A Comprehensive Framework for Reliable Large Language
Models
- arxiv url: http://arxiv.org/abs/2306.13230v2
- Date: Mon, 26 Jun 2023 20:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 16:08:21.532019
- Title: DiversiGATE: A Comprehensive Framework for Reliable Large Language
Models
- Title(参考訳): DiversiGATE: 信頼性の高い大規模言語モデルのための総合的なフレームワーク
- Authors: Shima Imani, Ali Beyram, Harsh Shrivastava
- Abstract要約: LLM検証のための多種多様な方法論を統合する統合フレームワークであるDiversiGATEを導入する。
本稿では,DiversiGATEフレームワークに準拠した新たなセルフラーナーモデルを提案する。
提案手法は従来のLLMよりも優れており,GSM8Kベンチマークでは54.8%から61.8%の改善が達成されている。
- 参考スコア(独自算出の注目度): 2.616506436169964
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we introduce DiversiGATE, a unified framework that
consolidates diverse methodologies for LLM verification. The proposed framework
comprises two main components: Diversification and Aggregation which provide a
holistic perspective on existing verification approaches, such as
Self-Consistency, Math Prompter and WebGPT. Furthermore, we propose a novel
`SelfLearner' model that conforms to the DiversiGATE framework which can learn
from its own outputs and refine its performance over time, leading to improved
accuracy. To evaluate the effectiveness of SelfLearner, we conducted a rigorous
series of experiments, including tests on synthetic data as well as on popular
arithmetic reasoning benchmarks such as GSM8K. Our results demonstrate that our
approach outperforms traditional LLMs, achieving a considerable 54.8% -> 61.8%
improvement on the GSM8K benchmark.
- Abstract(参考訳): 本稿では,LLM検証のための多種多様な方法論を統合する統合フレームワークであるDiversiGATEを紹介する。
提案フレームワークは,自己整合性,Math Prompter,WebGPTなど,既存の検証アプローチの全体像を提供する多様化と集約の2つの主要コンポーネントから構成される。
さらに,独自のアウトプットから学習し,時間とともにその性能を洗練し,精度を向上させるために,ダイバーシゲートフレームワークに準拠した新たな ‘selflearner' モデルを提案する。
自己学習の有効性を評価するために,合成データやgsm8kなどの一般的な算術推論ベンチマークなど,厳密な実験を行った。
提案手法は従来のLLMよりも優れており,GSM8Kベンチマークでは54.8%から61.8%の改善が達成されている。
関連論文リスト
- Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Confidence Diagram of Nonparametric Ranking for Uncertainty Assessment in Large Language Models Evaluation [20.022623972491733]
大きな言語モデル(LLM)のランク付けは、$N$のポリシーに基づいてアライメントを改善する効果的なツールであることが証明されている。
本稿では,言語モデルのランキングの中から仮説テストのための新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-07T02:34:30Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - GEDI: GEnerative and DIscriminative Training for Self-Supervised
Learning [3.6804038214708563]
我々は最先端の自己教師型学習目標について検討し、確率学習に基づく統一的な定式化を提案する。
我々は、この組み合わせフレームワークをGEDIと呼び、これはGEnerativeおよびDIscriminative Trainingの略である。
GEDIはクラスタリング性能において,既存の自己教師型学習戦略よりも広いマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-12-27T09:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。