論文の概要: POT: Inducing Overthinking in LLMs via Black-Box Iterative Optimization
- arxiv url: http://arxiv.org/abs/2508.19277v1
- Date: Sat, 23 Aug 2025 16:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.338792
- Title: POT: Inducing Overthinking in LLMs via Black-Box Iterative Optimization
- Title(参考訳): POT: Black-Boxイテレーティブ最適化によるLLMにおけるオーバーシンキングの導入
- Authors: Xinyu Li, Tianjin Huang, Ronghui Mu, Xiaowei Huang, Gaojie Jin,
- Abstract要約: 我々は,ブラックボックス攻撃フレームワークのPOT(Prompt-Only OverThinking)を提案する。
PoTは他の方法に比べて優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 28.771942726400084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Chain-of-Thought (CoT) prompting have substantially enhanced the reasoning capabilities of large language models (LLMs), enabling sophisticated problem-solving through explicit multi-step reasoning traces. However, these enhanced reasoning processes introduce novel attack surfaces, particularly vulnerabilities to computational inefficiency through unnecessarily verbose reasoning chains that consume excessive resources without corresponding performance gains. Prior overthinking attacks typically require restrictive conditions including access to external knowledge sources for data poisoning, reliance on retrievable poisoned content, and structurally obvious templates that limit practical applicability in real-world scenarios. To address these limitations, we propose POT (Prompt-Only OverThinking), a novel black-box attack framework that employs LLM-based iterative optimization to generate covert and semantically natural adversarial prompts, eliminating dependence on external data access and model retrieval. Extensive experiments across diverse model architectures and datasets demonstrate that POT achieves superior performance compared to other methods.
- Abstract(参考訳): 近年のChain-of-Thought(CoT)の進歩により、大規模言語モデル(LLM)の推論能力が大幅に向上し、明示的な多段階推論トレースによる高度な問題解決が可能になった。
しかしながら、これらの強化された推論プロセスは、新しい攻撃面、特に性能向上を伴わずに過剰なリソースを消費する不要な冗長な推論チェーンを通じて、計算不効率に対する脆弱性を導入している。
事前の過度な攻撃には、データ中毒の外部知識ソースへのアクセス、検索可能な有害コンテンツへの依存、現実のシナリオにおける実用性を制限する構造的に明らかなテンプレートなど、制限的な条件が要求される。
これらの制約に対処するために,LLMに基づく反復最適化を用いた新たなブラックボックス攻撃フレームワークPOT(Prompt-Only OverThinking)を提案する。
多様なモデルアーキテクチャやデータセットにわたる大規模な実験は、POTが他の方法よりも優れたパフォーマンスを達成することを示す。
関連論文リスト
- Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation [21.89080753903469]
パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。
本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。
階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
論文 参考訳(メタデータ) (2025-05-23T07:30:13Z) - Generalizing Large Language Model Usability Across Resource-Constrained [0.43512163406552007]
論文は、現実世界の制約下での大規模言語モデルを一般化するための体系的な研究である。
まず、LLMが多様なモダリティをシームレスに統合することを可能にする、堅牢なテキスト中心アライメントフレームワークを導入する。
マルチモーダル設定以外にも、この論文はLLMの推論時間最適化戦略を研究している。
論文 参考訳(メタデータ) (2025-05-13T01:00:12Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - VERUS-LM: a Versatile Framework for Combining LLMs with Symbolic Reasoning [6.092556069430351]
本稿では,ニューロシンボリック推論の新しい枠組みであるVERUS-LMを紹介する。
VERUS-LMは汎用的なプロンプト機構を採用し、クエリからドメイン知識を明確に分離する。
提案手法は,LLMを著しく上回る,新しいデータセットの多種多様な推論に成功していることを示す。
論文 参考訳(メタデータ) (2025-01-24T14:45:21Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - A new interpretable unsupervised anomaly detection method based on
residual explanation [47.187609203210705]
本稿では,大規模システムにおけるAEベースのADの制限に対処する新しい解釈可能性手法であるRXPを提案する。
実装の単純さ、計算コストの低さ、決定論的振る舞いが特徴である。
実鉄道路線のデータを用いた実験において,提案手法はSHAPよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-14T15:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。