論文の概要: Flaming-hot Initiation with Regular Execution Sampling for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.21236v1
- Date: Mon, 28 Oct 2024 17:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:15.855128
- Title: Flaming-hot Initiation with Regular Execution Sampling for Large Language Models
- Title(参考訳): 大規模言語モデルに対する正規実行サンプリングによるフレーミングホット開始
- Authors: Weizhe Chen, Zhicheng Zhang, Guanlin Liu, Renjie Zheng, Wenlei Shi, Chen Dun, Zheng Wu, Xing Jin, Lin Yan,
- Abstract要約: 本稿では,Flaming-Hot Initiation with Regular Execution (FIRE) sampleについて紹介する。
実験の結果,FIREサンプリングは推論時間生成の質を高め,アライメント段階のトレーニングにも有効であることがわかった。
- 参考スコア(独自算出の注目度): 17.184056323271527
- License:
- Abstract: Since the release of ChatGPT, large language models (LLMs) have demonstrated remarkable capabilities across various domains. A key challenge in developing these general capabilities is efficiently sourcing diverse, high-quality data. This becomes especially critical in reasoning-related tasks with sandbox checkers, such as math or code, where the goal is to generate correct solutions to specific problems with higher probability. In this work, we introduce Flaming-hot Initiation with Regular Execution (FIRE) sampling, a simple yet highly effective method to efficiently find good responses. Our empirical findings show that FIRE sampling enhances inference-time generation quality and also benefits training in the alignment stage. Furthermore, we explore how FIRE sampling improves performance by promoting diversity and analyze the impact of employing FIRE at different positions within a response.
- Abstract(参考訳): ChatGPTのリリース以来、大規模言語モデル(LLM)は様々な領域で顕著な機能を示してきた。
これらの汎用機能を開発する上で重要な課題は、多種多様な高品質なデータを効率的にソーシングすることである。
これは数学やコードといったサンドボックスチェッカーによる推論に関連するタスクにおいて特に重要となり、高い確率で特定の問題に対する正しい解を生成することが目的である。
本研究では,Flaming-Hot Initiation with Regular Execution (FIRE) sampleを導入する。
実験の結果,FIREサンプリングは推論時間生成の質を高め,アライメント段階のトレーニングにも有効であることがわかった。
さらに,FIREサンプリングの多様性向上による性能向上について検討し,FIREの利用が応答の異なる位置で及ぼす影響を分析した。
関連論文リスト
- Diversified Sampling Improves Scaling LLM inference [31.18762591875725]
DivSamplingは、候補解の多様性を高めるために設計された、斬新で多用途なサンプリング技術である。
理論解析により, 微妙な仮定の下では, 種々のプロンプトから発生する応答の誤り率は, 定常プロンプトによる応答よりも有意に低いことが示された。
論文 参考訳(メタデータ) (2025-02-16T07:37:58Z) - Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - First Token Probability Guided RAG for Telecom Question Answering [15.854941373238226]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) にドメイン固有情報を組み込むことにおいて、明確な優位性を示している。
本稿では,通信におけるMultiple Choice Question Answering(MCQA)の課題に対処する,新しいトークン確率ガイド付きRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-11T07:47:31Z) - CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Agent Skill Acquisition for Large Language Models via CycleQD [2.749898166276853]
CycleQDはアルゴリズムの循環的適応を通じて品質多様性フレームワークを活用する新しいアプローチである。
各タスクのパフォーマンス指標は品質指標として交換され、他のタスクは行動特性として機能する。
CycleQD を LLAMA3-8B-INSTRUCT ベースのモデルに適用することで、コーディング、オペレーティングシステム、データベースタスクにおける従来の微調整手法を超越するだけでなく、GPT-3.5-TURBO と同等のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2024-10-16T20:27:15Z) - Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations [4.207253227315905]
我々は、カスタマイズされたデモを容易にする問題解決フレームワークSELF-TAUGHTを提案する。
複数選択質問の15のタスクにおいて、SELF-TAUGHTは強いベースラインよりも優れたパフォーマンスを達成する。
我々はSELF-TAUGHTの包括的解析を行い、既存のプロンプト法への一般化性について述べる。
論文 参考訳(メタデータ) (2024-08-22T11:41:35Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。