Fugu-MT 論文翻訳(概要): Flaming-hot Initiation with Regular Execution Sampling for Large Language Models

論文の概要: Flaming-hot Initiation with Regular Execution Sampling for Large Language Models

arxiv url: http://arxiv.org/abs/2410.21236v1
Date: Mon, 28 Oct 2024 17:30:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.424172
Title: Flaming-hot Initiation with Regular Execution Sampling for Large Language Models
Title（参考訳）: 大規模言語モデルに対する正規実行サンプリングによるフレーミングホット開始
Authors: Weizhe Chen, Zhicheng Zhang, Guanlin Liu, Renjie Zheng, Wenlei Shi, Chen Dun, Zheng Wu, Xing Jin, Lin Yan,
Abstract要約: 本稿では,Flaming-Hot Initiation with Regular Execution (FIRE) sampleについて紹介する。実験の結果,FIREサンプリングは推論時間生成の質を高め,アライメント段階のトレーニングにも有効であることがわかった。
参考スコア（独自算出の注目度）: 17.184056323271527
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since the release of ChatGPT, large language models (LLMs) have demonstrated remarkable capabilities across various domains. A key challenge in developing these general capabilities is efficiently sourcing diverse, high-quality data. This becomes especially critical in reasoning-related tasks with sandbox checkers, such as math or code, where the goal is to generate correct solutions to specific problems with higher probability. In this work, we introduce Flaming-hot Initiation with Regular Execution (FIRE) sampling, a simple yet highly effective method to efficiently find good responses. Our empirical findings show that FIRE sampling enhances inference-time generation quality and also benefits training in the alignment stage. Furthermore, we explore how FIRE sampling improves performance by promoting diversity and analyze the impact of employing FIRE at different positions within a response.
Abstract（参考訳）: ChatGPTのリリース以来、大規模言語モデル(LLM)は様々な領域で顕著な機能を示してきた。これらの汎用機能を開発する上で重要な課題は、多種多様な高品質なデータを効率的にソーシングすることである。これは数学やコードといったサンドボックスチェッカーによる推論に関連するタスクにおいて特に重要となり、高い確率で特定の問題に対する正しい解を生成することが目的である。本研究では,Flaming-Hot Initiation with Regular Execution (FIRE) sampleを導入する。実験の結果,FIREサンプリングは推論時間生成の質を高め,アライメント段階のトレーニングにも有効であることがわかった。さらに,FIREサンプリングの多様性向上による性能向上について検討し,FIREの利用が応答の異なる位置で及ぼす影響を分析した。

関連論文リスト

Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。 CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文参考訳（メタデータ） (2025-05-29T11:08:24Z)
Few-Shot Optimization for Sensor Data Using Large Language Models: A Case Study on Fatigue Detection [3.536622936239033]
本稿では,HED-LM(Hybrid Euclidean Distance with Large Language Models)を用いて,センサを用いた分類タスクのサンプル選択を改善するために,新しい数ショット最適化を提案する。 HED-LMは、ユークリッド距離に基づいて候補サンプルをフィルタリングし、それらを再ランクするハイブリッドセレクションパイプラインを通じて、この問題に対処する。実験の結果,HED-LMの平均マクロF1スコアは69.13$pm$10.71%であり,ランダム選択と距離のみフィルタリングの両方に優れていた。
論文参考訳（メタデータ） (2025-05-24T15:43:25Z)
Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。 GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-02T05:16:17Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Diversified Sampling Improves Scaling LLM inference [31.18762591875725]
DivSamplingは、候補解の多様性を高めるために設計された、斬新で多用途なサンプリング技術である。理論解析により, 微妙な仮定の下では, 種々のプロンプトから発生する応答の誤り率は, 定常プロンプトによる応答よりも有意に低いことが示された。
論文参考訳（メタデータ） (2025-02-16T07:37:58Z)
Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-08T04:39:51Z)
First Token Probability Guided RAG for Telecom Question Answering [15.854941373238226]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) にドメイン固有情報を組み込むことにおいて、明確な優位性を示している。本稿では,通信におけるMultiple Choice Question Answering(MCQA)の課題に対処する,新しいトークン確率ガイド付きRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-11T07:47:31Z)
CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文参考訳（メタデータ） (2024-10-22T03:59:53Z)
Agent Skill Acquisition for Large Language Models via CycleQD [2.749898166276853]
CycleQDはアルゴリズムの循環的適応を通じて品質多様性フレームワークを活用する新しいアプローチである。各タスクのパフォーマンス指標は品質指標として交換され、他のタスクは行動特性として機能する。 CycleQD を LLAMA3-8B-INSTRUCT ベースのモデルに適用することで、コーディング、オペレーティングシステム、データベースタスクにおける従来の微調整手法を超越するだけでなく、GPT-3.5-TURBO と同等のパフォーマンスを達成できる。
論文参考訳（メタデータ） (2024-10-16T20:27:15Z)
Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations [4.207253227315905]
我々は、カスタマイズされたデモを容易にする問題解決フレームワークSELF-TAUGHTを提案する。複数選択質問の15のタスクにおいて、SELF-TAUGHTは強いベースラインよりも優れたパフォーマンスを達成する。我々はSELF-TAUGHTの包括的解析を行い、既存のプロンプト法への一般化性について述べる。
論文参考訳（メタデータ） (2024-08-22T11:41:35Z)
FouRA: Fourier Low Rank Adaptation [47.485305992204935]
FouRAはフーリエ領域の射影を学習する新しい低ランク法である。 FouRAはデータの複製や分散の崩壊に関わる問題をうまく解決する。また、GLUEベンチマークで言語タスクの利点を示す。
論文参考訳（メタデータ） (2024-06-13T04:27:37Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Evolutionary Multi-Objective Optimization of Large Language Model Prompts for Balancing Sentiments [0.0]
EMO-Promptsと呼ばれる迅速な最適化に適した進化的多目的(EMO)アプローチを提案する。 EMO-Prompts は,2つの矛盾する感情を同時に表わしたテキストを生成するために LLM を誘導できるプロンプトを効果的に生成することを示した。
論文参考訳（メタデータ） (2024-01-18T10:21:15Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
CCLF: A Contrastive-Curiosity-Driven Learning Framework for Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。 CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文参考訳（メタデータ） (2022-05-02T14:42:05Z)
Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。 FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。 MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文参考訳（メタデータ） (2020-07-18T09:48:29Z)
Bayesian Experience Reuse for Learning from Multiple Demonstrators [24.489002406693128]
デモンストレーション(LfD)からの学習は、専門家によるデモンストレーションを取り入れることで、学習エージェントの探索効率を向上させる。本研究では、正規逆ガンマ前駆体を用いて、ソースおよびターゲットタスク関数の不確かさをモデル化することで、この問題に対処する。我々は、この学習された信念を用いて、解がエキスパートモデルに確率分布をもたらす二次的プログラミング問題を導出する。
論文参考訳（メタデータ） (2020-06-10T08:32:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。