論文の概要: Prompt Repetition Improves Non-Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2512.14982v1
- Date: Wed, 17 Dec 2025 00:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.809655
- Title: Prompt Repetition Improves Non-Reasoning LLMs
- Title(参考訳): プロンプト反復による非共振LDMの改善
- Authors: Yaniv Leviathan, Matan Kalman, Yossi Matias,
- Abstract要約: 入力プロンプトを繰り返すことで、生成されたトークンやレイテンシを増やすことなく、人気のあるモデル(Gemini、GPT、Claude、Deepseek)のパフォーマンスが向上する。
推論を使用しない場合には、入力を繰り返すことで、生成されたトークンやレイテンシを増やすことなく、人気のあるモデル(Gemini、GPT、Claude、Deepseek)のパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 15.439927719598508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When not using reasoning, repeating the input prompt improves performance for popular models (Gemini, GPT, Claude, and Deepseek) without increasing the number of generated tokens or latency.
- Abstract(参考訳): 推論を使用しない場合には、入力を繰り返すことで、生成されたトークンやレイテンシを増やすことなく、人気のあるモデル(Gemini、GPT、Claude、Deepseek)のパフォーマンスが向上する。
関連論文リスト
- Boosting Reasoning in Large Multimodal Models via Activation Replay [136.6522463570943]
RLVRは低エントロピーの活性化を予期せずシフトさせるが、高エントロピーの活性化は影響を受けないことを示す。
本稿では,学習後LMMのマルチモーダル推論を促進するトレーニングフリーアプローチであるActivation Replayを提案する。
論文 参考訳(メタデータ) (2025-11-25T06:31:57Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization [66.82303841930752]
拡散言語モデル (DLMs) は従来の自己回帰型大規模言語モデル (LLMs) に代わる有望な選択肢を提供する。
DLMは、特にデノナイジングステップの数が減少するにつれて、LLMよりも遅れている。
本稿では,マルチリワード最適化 (MRO) 手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T13:57:59Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Time-Reversal Provides Unsupervised Feedback to LLMs [31.575024356581846]
Time Reversed Language Models (TRLM) は、応答に条件付きでクエリをスコアし、生成することができる。
TRLMのスコアリングは,従来のクエリのフォワードスコアよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:54:12Z) - Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained
Models for Spatiotemporal Modeling [32.603558214472265]
本稿では,アクション認識などのビデオベースアプリケーションに対して,Attention Prompt Tuning(APT)を導入する。
APTは、バックボーンを凍結させながら微調整中にデータトークンとともに学習可能なプロンプトのセットを注入する。
提案手法は,FLOPとレイテンシを著しく低減するとともに,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:41Z) - ProSG: Using Prompt Synthetic Gradients to Alleviate Prompt Forgetting
of RNN-like Language Models [0.0]
本稿では,合成勾配による生成過程におけるモデル記憶プロンプトを記憶するアーキテクチャを提案する。
実験のためのデータセットを構築し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-11-03T15:34:02Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Discrete Prompt Optimization via Constrained Generation for Zero-shot
Re-ranker [0.2580765958706853]
大規模言語モデル (LLM) はゼロショットリランカとして, 優れた結果が得られる。
LLMはプロンプトに大きく依存しており、ゼロショットリランカのプロンプトの影響と最適化はまだ検討されていない。
本稿では,新しい離散的プロンプト最適化手法であるConstrained Prompt Generation(Co-Prompt)を提案する。
論文 参考訳(メタデータ) (2023-05-23T06:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。