論文の概要: Online Self-Calibration Against Hallucination in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.00323v1
- Date: Fri, 01 May 2026 01:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.805212
- Title: Online Self-Calibration Against Hallucination in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける幻覚に対するオンライン自己校正
- Authors: Minghui Chen, Chenxu Yang, Hengjie Zhu, Dayan Wu, Zheng Lin, Qingyi Si,
- Abstract要約: LVLM(Large Vision-Language Models)はしばしば幻覚に悩まされ、入力画像にない視覚的詳細を含む記述を生成する。
textbfOnline textbfSelf-textbfCAlibtextbfRation (OSCAR) を提案する。
- 参考スコア(独自算出の注目度): 23.13137973421435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) often suffer from hallucinations, generating descriptions that include visual details absent from the input image. Recent preference alignment methods typically rely on supervision distilled from stronger models such as GPT. However, this offline paradigm introduces a Supervision-Perception Mismatch: the student model is forced to align with fine-grained details beyond its perceptual capacity, learning to guess rather than to see. To obtain reliable self-supervision for online learning, we identify a Generative-Discriminative Gap within LVLMs, where models exhibit higher accuracy on discriminative verification than open-ended generation. Leveraging this capability, we propose \textbf{O}nline \textbf{S}elf-\textbf{CA}lib\textbf{R}ation (OSCAR), a framework that integrates Monte Carlo Tree Search with a Dual-Granularity Reward Mechanism to construct preference data and iteratively refines the model via Direct Preference Optimization. Extensive experiments demonstrate that OSCAR achieves state-of-the-art performance on hallucination benchmarks while improving general multimodal capabilities.
- Abstract(参考訳): LVLM(Large Vision-Language Models)はしばしば幻覚に悩まされ、入力画像から欠落した視覚的詳細を含む記述を生成する。
最近の選好アライメント法は、通常、GPTのようなより強いモデルから蒸留された監督に依存する。
しかし、このオフラインのパラダイムはスーパービジョン・パーセプション・ミスマッチ(Supervision-Perception Mismatch)を導入している。
オンライン学習のための信頼性の高い自己スーパービジョンを得るために,LVLM内の生成-識別ギャップを同定する。
この機能を活用して、モンテカルロ木探索とデュアルグラニュラリティー・リワード機構を統合して嗜好データを構築し、直接選好最適化を通じてモデルを反復的に洗練するフレームワークである、textbf{O}nline \textbf{S}elf-\textbf{CA}lib\textbf{R}ation (OSCAR)を提案する。
大規模な実験により、OSCARは幻覚ベンチマークにおける最先端のパフォーマンスを達成し、一般的なマルチモーダル能力を向上することを示した。
関連論文リスト
- Dual-Teacher Distillation with Subnetwork Rectification for Black-Box Domain Adaptation [69.7036779439312]
ブラックボックスドメイン適応は、非常に実用的で非常に困難な設定である。
ブラックボックスソースモデルに埋め込まれた特定の知識を活用するサブネットワーク整合モデル(DDSR)を用いた二重蒸留法を提案する。
我々の手法は、ソースデータやモデルの使用を含む、最先端の手法に対する一貫した改善を実証する。
論文 参考訳(メタデータ) (2026-03-24T07:54:19Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。