論文の概要: Flaming-hot Initiation with Regular Execution Sampling for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.21236v1
- Date: Mon, 28 Oct 2024 17:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:15.855128
- Title: Flaming-hot Initiation with Regular Execution Sampling for Large Language Models
- Title(参考訳): 大規模言語モデルに対する正規実行サンプリングによるフレーミングホット開始
- Authors: Weizhe Chen, Zhicheng Zhang, Guanlin Liu, Renjie Zheng, Wenlei Shi, Chen Dun, Zheng Wu, Xing Jin, Lin Yan,
- Abstract要約: 本稿では,Flaming-Hot Initiation with Regular Execution (FIRE) sampleについて紹介する。
実験の結果,FIREサンプリングは推論時間生成の質を高め,アライメント段階のトレーニングにも有効であることがわかった。
- 参考スコア(独自算出の注目度): 17.184056323271527
- License:
- Abstract: Since the release of ChatGPT, large language models (LLMs) have demonstrated remarkable capabilities across various domains. A key challenge in developing these general capabilities is efficiently sourcing diverse, high-quality data. This becomes especially critical in reasoning-related tasks with sandbox checkers, such as math or code, where the goal is to generate correct solutions to specific problems with higher probability. In this work, we introduce Flaming-hot Initiation with Regular Execution (FIRE) sampling, a simple yet highly effective method to efficiently find good responses. Our empirical findings show that FIRE sampling enhances inference-time generation quality and also benefits training in the alignment stage. Furthermore, we explore how FIRE sampling improves performance by promoting diversity and analyze the impact of employing FIRE at different positions within a response.
- Abstract(参考訳): ChatGPTのリリース以来、大規模言語モデル(LLM)は様々な領域で顕著な機能を示してきた。
これらの汎用機能を開発する上で重要な課題は、多種多様な高品質なデータを効率的にソーシングすることである。
これは数学やコードといったサンドボックスチェッカーによる推論に関連するタスクにおいて特に重要となり、高い確率で特定の問題に対する正しい解を生成することが目的である。
本研究では,Flaming-Hot Initiation with Regular Execution (FIRE) sampleを導入する。
実験の結果,FIREサンプリングは推論時間生成の質を高め,アライメント段階のトレーニングにも有効であることがわかった。
さらに,FIREサンプリングの多様性向上による性能向上について検討し,FIREの利用が応答の異なる位置で及ぼす影響を分析した。
関連論文リスト
- CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Agent Skill Acquisition for Large Language Models via CycleQD [2.749898166276853]
CycleQDはアルゴリズムの循環的適応を通じて品質多様性フレームワークを活用する新しいアプローチである。
各タスクのパフォーマンス指標は品質指標として交換され、他のタスクは行動特性として機能する。
CycleQD を LLAMA3-8B-INSTRUCT ベースのモデルに適用することで、コーディング、オペレーティングシステム、データベースタスクにおける従来の微調整手法を超越するだけでなく、GPT-3.5-TURBO と同等のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2024-10-16T20:27:15Z) - Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations [4.207253227315905]
我々は、カスタマイズされたデモを容易にする問題解決フレームワークSELF-TAUGHTを提案する。
複数選択質問の15のタスクにおいて、SELF-TAUGHTは強いベースラインよりも優れたパフォーマンスを達成する。
我々はSELF-TAUGHTの包括的解析を行い、既存のプロンプト法への一般化性について述べる。
論文 参考訳(メタデータ) (2024-08-22T11:41:35Z) - FouRA: Fourier Low Rank Adaptation [47.485305992204935]
FouRAはフーリエ領域の射影を学習する新しい低ランク法である。
FouRAはデータの複製や分散の崩壊に関わる問題をうまく解決する。
また、GLUEベンチマークで言語タスクの利点を示す。
論文 参考訳(メタデータ) (2024-06-13T04:27:37Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Evolutionary Multi-Objective Optimization of Large Language Model
Prompts for Balancing Sentiments [0.0]
EMO-Promptsと呼ばれる迅速な最適化に適した進化的多目的(EMO)アプローチを提案する。
EMO-Prompts は,2つの矛盾する感情を同時に表わしたテキストを生成するために LLM を誘導できるプロンプトを効果的に生成することを示した。
論文 参考訳(メタデータ) (2024-01-18T10:21:15Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Bayesian Experience Reuse for Learning from Multiple Demonstrators [24.489002406693128]
デモンストレーション(LfD)からの学習は、専門家によるデモンストレーションを取り入れることで、学習エージェントの探索効率を向上させる。
本研究では、正規逆ガンマ前駆体を用いて、ソースおよびターゲットタスク関数の不確かさをモデル化することで、この問題に対処する。
我々は、この学習された信念を用いて、解がエキスパートモデルに確率分布をもたらす二次的プログラミング問題を導出する。
論文 参考訳(メタデータ) (2020-06-10T08:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。