Fugu-MT 論文翻訳(概要): DiversiGATE: A Comprehensive Framework for Reliable Large Language Models

論文の概要: DiversiGATE: A Comprehensive Framework for Reliable Large Language Models

arxiv url: http://arxiv.org/abs/2306.13230v2
Date: Mon, 26 Jun 2023 20:55:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 16:08:21.532019
Title: DiversiGATE: A Comprehensive Framework for Reliable Large Language Models
Title（参考訳）: DiversiGATE: 信頼性の高い大規模言語モデルのための総合的なフレームワーク
Authors: Shima Imani, Ali Beyram, Harsh Shrivastava
Abstract要約: LLM検証のための多種多様な方法論を統合する統合フレームワークであるDiversiGATEを導入する。本稿では,DiversiGATEフレームワークに準拠した新たなセルフラーナーモデルを提案する。提案手法は従来のLLMよりも優れており,GSM8Kベンチマークでは54.8%から61.8%の改善が達成されている。
参考スコア（独自算出の注目度）: 2.616506436169964
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we introduce DiversiGATE, a unified framework that consolidates diverse methodologies for LLM verification. The proposed framework comprises two main components: Diversification and Aggregation which provide a holistic perspective on existing verification approaches, such as Self-Consistency, Math Prompter and WebGPT. Furthermore, we propose a novel `SelfLearner' model that conforms to the DiversiGATE framework which can learn from its own outputs and refine its performance over time, leading to improved accuracy. To evaluate the effectiveness of SelfLearner, we conducted a rigorous series of experiments, including tests on synthetic data as well as on popular arithmetic reasoning benchmarks such as GSM8K. Our results demonstrate that our approach outperforms traditional LLMs, achieving a considerable 54.8% -> 61.8% improvement on the GSM8K benchmark.
Abstract（参考訳）: 本稿では,LLM検証のための多種多様な方法論を統合する統合フレームワークであるDiversiGATEを紹介する。提案フレームワークは,自己整合性,Math Prompter,WebGPTなど,既存の検証アプローチの全体像を提供する多様化と集約の2つの主要コンポーネントから構成される。さらに,独自のアウトプットから学習し,時間とともにその性能を洗練し,精度を向上させるために,ダイバーシゲートフレームワークに準拠した新たな ‘selflearner' モデルを提案する。自己学習の有効性を評価するために,合成データやgsm8kなどの一般的な算術推論ベンチマークなど,厳密な実験を行った。提案手法は従来のLLMよりも優れており,GSM8Kベンチマークでは54.8%から61.8%の改善が達成されている。

関連論文リスト

OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。 OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文参考訳（メタデータ） (2025-06-14T20:16:37Z)
Retrieval-augmented in-context learning for multimodal large language models in disease classification [18.48849976529677]
RAICLは、検索強化世代(RAG)とコンテキスト内学習(ICL)を統合し、同様の病気パターンを持つデモを適応的に選択する。このフレームワークを実世界の2つのマルチモーダルデータセット上で評価した。
論文参考訳（メタデータ） (2025-05-04T12:43:56Z)
Enhancing LLM Code Generation with Ensembles: A Similarity-Based Selection Approach [6.93983229112122]
コード生成における大規模言語モデル(LLM)のアンサンブル手法を提案する。投票には,CodeBLEUと行動等価性を用いて構文的・意味的類似性を計算する。実験により,我々のアンサンブルアプローチはスタンドアローンLLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-03-20T04:38:56Z)
Advancing Sentiment Analysis: A Novel LSTM Framework with Multi-head Attention [0.0]
本研究では,マルチヘッドアテンション機構とTF-IDF最適化を用いたLSTMに基づく感情分類モデルを提案する。公開データセットの実験結果から,新しい手法は精度,リコール,F1スコアといった重要な指標を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-03-11T06:21:49Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文参考訳（メタデータ） (2025-01-19T16:53:26Z)
Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文参考訳（メタデータ） (2024-12-17T18:12:47Z)
Confidence Diagram of Nonparametric Ranking for Uncertainty Assessment in Large Language Models Evaluation [20.022623972491733]
大きな言語モデル(LLM)のランク付けは、$N$のポリシーに基づいてアライメントを改善する効果的なツールであることが証明されている。本稿では,言語モデルのランキングの中から仮説テストのための新しい推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-07T02:34:30Z)
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-11-04T06:07:53Z)
Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。 SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文参考訳（メタデータ） (2024-09-05T06:28:05Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
CLLMFS: A Contrastive Learning enhanced Large Language Model Framework for Few-Shot Named Entity Recognition [3.695767900907561]
CLLMFSは、Few-Shot Named Entity RecognitionのためのContrastive LearningEnhanced Large Language Modelフレームワークである。 Low-Rank Adaptation (LoRA)と、数発のNER用に特別に調整された対照的な学習メカニズムを統合している。提案手法は,F1スコアの現行性能を2.58%から97.74%まで向上させた。
論文参考訳（メタデータ） (2024-08-23T04:44:05Z)
Self-Supervised Representation Learning with Meta Comprehensive Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文参考訳（メタデータ） (2024-03-03T15:53:48Z)
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。 GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文参考訳（メタデータ） (2023-12-28T15:49:43Z)
BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文参考訳（メタデータ） (2023-12-26T08:14:46Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
GEDI: GEnerative and DIscriminative Training for Self-Supervised Learning [3.6804038214708563]
我々は最先端の自己教師型学習目標について検討し、確率学習に基づく統一的な定式化を提案する。我々は、この組み合わせフレームワークをGEDIと呼び、これはGEnerativeおよびDIscriminative Trainingの略である。 GEDIはクラスタリング性能において,既存の自己教師型学習戦略よりも広いマージンで優れていることを示す。
論文参考訳（メタデータ） (2022-12-27T09:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。