Fugu-MT 論文翻訳(概要): Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach

論文の概要: Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach

arxiv url: http://arxiv.org/abs/2503.13208v1
Date: Mon, 17 Mar 2025 14:20:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:58.323206
Title: Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach
Title（参考訳）: 動的プロンプト破壊による複雑な推論の改善:ソフトプロンプト最適化アプローチ
Authors: Sinan Fan, Liang Xie, Chen Shen, Ge Teng, Xiaosong Yuan, Xiaofeng Zhang, Chenxi Huang, Wenxiao Wang, Xiaofei He, Jieping Ye,
Abstract要約: 複雑な推論タスクにおいてソフトプロンプトをうまく活用するために,textbfDynamic textbfPrompt textbfCorruption (DPC) という新しい手法を提案する。まず、Dynamic Triggerはソフトプロンプトの影響を測定し、有益か有害かを特定する。次に、動的破壊は、推論プロセスに干渉するキートークンを選択的にマスキングすることにより、ソフトプロンプトの負の効果を緩和する。
参考スコア（独自算出の注目度）: 33.331269103351815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompt-tuning (PT) for large language models (LLMs) can facilitate the performance on various conventional NLP tasks with significantly fewer trainable parameters. However, our investigation reveals that PT provides limited improvement and may even degrade the primitive performance of LLMs on complex reasoning tasks. Such a phenomenon suggests that soft prompts can positively impact certain instances while negatively affecting others, particularly during the later phases of reasoning. To address these challenges, We first identify an information accumulation within the soft prompts. Through detailed analysis, we demonstrate that this phenomenon is often accompanied by erroneous information flow patterns in the deeper layers of the model, which ultimately lead to incorrect reasoning outcomes. we propose a novel method called \textbf{D}ynamic \textbf{P}rompt \textbf{C}orruption (DPC) to take better advantage of soft prompts in complex reasoning tasks, which dynamically adjusts the influence of soft prompts based on their impact on the reasoning process. Specifically, DPC consists of two stages: Dynamic Trigger and Dynamic Corruption. First, Dynamic Trigger measures the impact of soft prompts, identifying whether beneficial or detrimental. Then, Dynamic Corruption mitigates the negative effects of soft prompts by selectively masking key tokens that interfere with the reasoning process. We validate the proposed approach through extensive experiments on various LLMs and reasoning tasks, including GSM8K, MATH, and AQuA. Experimental results demonstrate that DPC can consistently enhance the performance of PT, achieving 4\%-8\% accuracy gains compared to vanilla prompt tuning, highlighting the effectiveness of our approach and its potential to enhance complex reasoning in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)のためのプロンプトチューニング(PT)は、訓練可能なパラメータを著しく少なくして、様々な従来のNLPタスクのパフォーマンスを向上させることができる。しかし,本研究では,PTが限定的な改善を実現し,複雑な推論タスクにおいて LLM の原始的性能を低下させる可能性も示唆している。このような現象は、ソフトプロンプトが特定のインスタンスに肯定的な影響を与える一方で、特に推論の後期の段階では、他のインスタンスに否定的な影響を及ぼすことを示唆している。これらの課題に対処するために、私たちはまず、ソフトプロンプト内の情報蓄積を特定します。詳細な分析を通して、この現象は、しばしばモデルの深い層に誤った情報フローパターンが伴い、最終的には誤った推論結果をもたらすことを実証する。本稿では, 複雑な推論タスクにおけるソフトプロンプトの利点を活かし, その影響に基づいてソフトプロンプトの影響を動的に調整する新しい手法を提案する。具体的には、DPCはDynamic TriggerとDynamic Corruptionの2つのステージで構成されている。まず、Dynamic Triggerはソフトプロンプトの影響を測定し、有益か有害かを特定する。次に、動的破壊は、推論プロセスに干渉するキートークンを選択的にマスキングすることにより、ソフトプロンプトの負の効果を緩和する。提案手法は, GSM8K, MATH, AQuA など,様々な LLM および推論タスクに関する広範な実験により検証される。実験の結果,DPCはPTの性能を継続的に向上し,バニラプロンプトチューニングと比較して4\%-8\%の精度向上を実現し,我々のアプローチの有効性とLCMにおける複雑な推論の強化の可能性を強調した。

関連論文リスト

Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文参考訳（メタデータ） (2025-05-30T14:23:32Z)
PAFT: Prompt-Agnostic Fine-Tuning [11.834072667345957]
Prompt-Agnostic Fine-Tuning(PAFT)を提案する。 PAFTは2つの段階で機能する: 第一に、有意義で合成された候補プロンプトの多様なセットが構築される。第二に、微調整の間、プロンプトはこのセットからランダムにサンプリングされ、動的トレーニングインプットを生成する。
論文参考訳（メタデータ） (2025-02-18T13:46:47Z)
Efficient and Effective Prompt Tuning via Prompt Decomposition and Compressed Outer Product [8.014705094248589]
低パラメータプロンプトチューニング法は、PT法とLoRA法で性能と効率を向上する。 6つのアーキテクチャと8つのデータセットにわたる実験により、LAMPはパフォーマンスと効率において、最先端のPTベースのメソッドとLoRAベースのメソッドより優れていることが示された。
論文参考訳（メタデータ） (2025-02-16T05:50:12Z)
Benchmarking Prompt Sensitivity in Large Language Models [13.986971540998258]
大規模言語モデル(LLM)は、迅速な定式化のバリエーションに非常に敏感である。本稿では,LLMの性能に及ぼす短時間の即時変動の影響を調べるために,新しいタスクであるPrompt Sensitivity Predictionとデータセットを提案する。
論文参考訳（メタデータ） (2025-02-09T23:01:03Z)
The Order Effect: Investigating Prompt Sensitivity in Closed-Source LLMs [19.798249518847694]
本稿では,大規模言語モデル(LLM)における順序感度の程度について検討する。その結果,入力順序はタスク間の性能に大きく影響し,シャッフルされた入力は出力精度を測定不能に低下させることがわかった。ショットプロンプトは複雑な効果を示し、部分緩和を提供するが、問題は完全な解決には至らなかった。
論文参考訳（メタデータ） (2025-02-06T15:14:02Z)
Investigating the Robustness of Deductive Reasoning with Large Language Models [7.494617747914778]
大規模言語モデル(LLM)は多くの推論に基づく自然言語処理(NLP)タスクにおいて印象的な結果が得られることが示されている。 LLMが、非公式および自己形式化の両方の手法で、どの程度論理的推論タスクに頑健であるかは、まだ不明である。
論文参考訳（メタデータ） (2025-02-04T17:16:51Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文参考訳（メタデータ） (2024-10-16T09:38:13Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。 Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文参考訳（メタデータ） (2023-10-02T03:12:06Z)
Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文参考訳（メタデータ） (2023-04-23T13:54:39Z)
RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。 RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-05-25T07:50:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。