論文の概要: ClipTTT: CLIP-Guided Test-Time Training Helps LVLMs See Better
- arxiv url: http://arxiv.org/abs/2603.26486v1
- Date: Fri, 27 Mar 2026 14:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.55409
- Title: ClipTTT: CLIP-Guided Test-Time Training Helps LVLMs See Better
- Title(参考訳): ClipTTT:CLIPによるテストタイムトレーニングは、LVLMがより良くなる
- Authors: Mriganka Nath, Anurag Das, Jiahao Xie, Bernt Schiele,
- Abstract要約: 大規模な視覚言語モデル(LVLM)は、特にテスト時に視覚入力が破損した場合、幻覚を引き起こす傾向がある。
このような汚職は、現実世界の応用において、幻覚率を大幅に増幅する、さらなる分布シフトとして機能することを示す。
CLIP誘導テストタイムトレーニング (ClipTTT) は, 飛行中の劣化条件下でのLVLMの適応法である。
- 参考スコア(独自算出の注目度): 48.278378830620916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) tend to hallucinate, especially when visual inputs are corrupted at test time. We show that such corruptions act as additional distribution shifts, significantly amplifying hallucination rates in real-world applications. To address this, we propose CLIP-guided Test-Time Training (ClipTTT), a method to adapt LVLMs under degraded conditions on the fly with a single test sample. Specifically, we leverage the image-text alignment strength of a pre-trained CLIP model as a stable guidance signal to identify reliable self-supervision targets, enabling rapid adaptation without altering the base LVLMs. Extensive experiments on standard hallucination benchmarks, with 15 common corruptions, demonstrate that ClipTTT effectively mitigates hallucinations and improves descriptive faithfulness under visual corruptions.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は、特にテスト時に視覚入力が破損した場合、幻覚を引き起こす傾向がある。
このような汚職は、現実世界の応用において、幻覚率を大幅に増幅する、さらなる分布シフトとして機能することを示す。
そこで本研究では,CLIP-Guided Test-Time Training (ClipTTT)を提案する。
具体的には、訓練済みのCLIPモデルの画像テキストアライメント強度を安定誘導信号として活用し、信頼性の高い自己スーパービジョンターゲットを同定し、ベースLVLMを変更することなく迅速な適応を可能にする。
ClipTTTは幻覚を効果的に緩和し、視覚的腐敗の下で記述的忠実性を改善することを実証している。
関連論文リスト
- Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation [86.37623966653688]
大規模視覚言語モデル(LVLM)はますます強まりつつあるが、マルチモーダルタスクにおいて幻覚を起こす傾向にある。
幻覚を避けるためにこれらのLVLMを訓練することは、より大きなモデルでは違法に高価になるため、トレーニングフリーな手法はこの問題に対して安価で柔軟な解決策を提供する。
我々は,視覚的視覚的接地剤とエビデンスを検証した自己修復機構を組み合わせた,LVLM幻覚軽減のためのトレーニングフリーフレームワークであるKestrelを提案する。
論文 参考訳(メタデータ) (2026-03-17T15:30:47Z) - PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T08:56:52Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - OViP: Online Vision-Language Preference Learning for VLM Hallucination [44.14029765850719]
大型視覚言語モデル(LVLM)は幻覚に弱いままであり、しばしば視覚入力と一致しないコンテンツを生成する。
本稿では,モデル自身の幻覚に基づいて,コントラスト学習データを動的に構築するオンラインビジョン言語嗜好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T19:26:09Z) - Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models [3.9464481148889354]
層集約(DCLA)による層間整合性を用いた復号化機構を提案する。
提案手法は,従来のレイヤから表現を集約することで動的セマンティック参照を構築し,階層間の一貫性を強制するために意味的に逸脱したレイヤを補正する。
MMEやPOPEのような幻覚ベンチマークの実験では、DCLAはLVLMの信頼性と性能を高めつつ、幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-05-18T10:15:42Z) - Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。
実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文 参考訳(メタデータ) (2025-04-16T14:50:25Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。