論文の概要: PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2602.20696v1
- Date: Tue, 24 Feb 2026 08:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.683142
- Title: PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding
- Title(参考訳): PromptCD:Polarity-Prompt Contrastive Decodingによるテスト時間動作の強化
- Authors: Baolong Bi, Yuyao Ge, Shenghua Liu, Yuchen He, Siqian Tong, Lizhe Chen, Lingrui Mei, Zehao Li, Yiwei Wang, Yujun Cai, Ming-Hsuan Yang, Xueqi Cheng,
- Abstract要約: 本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
- 参考スコア(独自算出の注目度): 85.22047087898311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable AI systems require large language models (LLMs) to exhibit behaviors aligned with human preferences and values. However, most existing alignment approaches operate at training time and rely on additional high-quality data, incurring significant computational and annotation costs. While recent work has shown that contrastive decoding can leverage a model's internal distributions to improve specific capabilities, its applicability remains limited to narrow behavioral scopes and scenarios. In this work, we introduce Polarity-Prompt Contrastive Decoding (PromptCD), a test-time behavior control method that generalizes contrastive decoding to broader enhancement settings. PromptCD constructs paired positive and negative guiding prompts for a target behavior and contrasts model responses-specifically token-level probability distributions in LLMs and visual attention patterns in VLMs-to reinforce desirable outcomes. This formulation extends contrastive decoding to a wide range of enhancement objectives and is applicable to both LLMs and Vision-Language Models (VLMs) without additional training. For LLMs, experiments on the "3H" alignment objectives (helpfulness, honesty, and harmlessness) demonstrate consistent and substantial improvements, indicating that post-trained models can achieve meaningful self-enhancement purely at test time. For VLMs, we further analyze contrastive effects on visual attention, showing that PromptCD significantly improves VQA performance by reinforcing behavior-consistent visual grounding. Collectively, these results highlight PromptCD as a simple, general, and cost-efficient strategy for reliable behavior control across modalities.
- Abstract(参考訳): 信頼性の高いAIシステムは、人間の好みや価値観に沿った振る舞いを示すために、大きな言語モデル(LLM)を必要とする。
しかし、既存のアライメントアプローチのほとんどは、トレーニング時に動作し、追加の高品質なデータに依存しており、かなりの計算とアノテーションのコストがかかる。
最近の研究によると、対照的な復号化は特定の能力を改善するためにモデルの内部分布を利用することができるが、その適用性は狭い行動範囲とシナリオに限られている。
本研究では,Polaity-Prompt Contrastive Decoding (PromptCD)を提案する。
PromptCDは、目標行動のためのペア正と負の導出プロンプトを構築し、LLMにおけるモデル応答特異的トークンレベルの確率分布とVLMにおける視覚的注意パターンを対比して、望ましい結果を補強する。
この定式化は、コントラストデコーディングを幅広い拡張対象に拡張し、追加のトレーニングなしでLLMとVLM(Vision-Language Models)の両方に適用できる。
LLMにとって、"3H"アライメントの目的(重大さ、正直さ、無害さ)に関する実験は、一貫性と実質的な改善を示し、訓練後のモデルがテスト時に純粋に有意義な自己啓発を達成できることを示している。
VLMでは、視覚的注意に対するコントラスト効果をさらに分析し、PmptCDは、行動に一貫性のある視覚的接地を強化することにより、VQA性能を著しく向上することを示した。
これらの結果から,PromptCDはモダリティを越えた信頼性の高い行動制御のためのシンプルで汎用的でコスト効率のよい戦略であることがわかった。
関連論文リスト
- Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs [67.69730908817321]
LVLMの内部ポジティブ・アテンション・ダイナミクス(PAD)は、注意シンクの歪みの下で自然に意味的にコアとなる視覚領域を明らかにする。
PADE(Positive Attention Dynamics Enhancement)は、意味的にコアとなる視覚領域を識別するためのPADマップを構築する訓練不要の注意介入である。
論文 参考訳(メタデータ) (2026-02-17T13:08:06Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。