論文の概要: Thinking Hallucination for Video Captioning
- arxiv url: http://arxiv.org/abs/2209.13853v1
- Date: Wed, 28 Sep 2022 06:15:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:14:25.257262
- Title: Thinking Hallucination for Video Captioning
- Title(参考訳): ビデオキャプションの幻覚を考える
- Authors: Nasib Ullah, Partha Pratim Mohanta
- Abstract要約: ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of rich visual representations and pre-trained language
models, video captioning has seen continuous improvement over time. Despite the
performance improvement, video captioning models are prone to hallucination.
Hallucination refers to the generation of highly pathological descriptions that
are detached from the source material. In video captioning, there are two kinds
of hallucination: object and action hallucination. Instead of endeavoring to
learn better representations of a video, in this work, we investigate the
fundamental sources of the hallucination problem. We identify three main
factors: (i) inadequate visual features extracted from pre-trained models, (ii)
improper influences of source and target contexts during multi-modal fusion,
and (iii) exposure bias in the training strategy. To alleviate these problems,
we propose two robust solutions: (a) the introduction of auxiliary heads
trained in multi-label settings on top of the extracted visual features and (b)
the addition of context gates, which dynamically select the features during
fusion. The standard evaluation metrics for video captioning measures
similarity with ground truth captions and do not adequately capture object and
action relevance. To this end, we propose a new metric, COAHA (caption object
and action hallucination assessment), which assesses the degree of
hallucination. Our method achieves state-of-the-art performance on the
MSR-Video to Text (MSR-VTT) and the Microsoft Research Video Description Corpus
(MSVD) datasets, especially by a massive margin in CIDEr score.
- Abstract(参考訳): リッチな視覚的表現と事前学習された言語モデルの出現により、ビデオキャプションは時間とともに改善されている。
性能改善にもかかわらず、ビデオキャプションモデルは幻覚を起こしやすい。
幻覚とは、原資料から切り離された非常に病的な記述の生成を指す。
ビデオキャプションでは、オブジェクトとアクションの幻覚という2種類の幻覚がある。
本研究は,映像の表現をもっと良くするために努力する代わりに,幻覚問題の根源について検討する。
主な要因は3つあります
(i)事前学習したモデルから抽出した不適切な視覚特徴
(二)マルチモーダル核融合時のソースおよびターゲットコンテキストの不適切な影響、及び
(iii)トレーニング戦略における露出バイアス。
これらの問題を緩和するため、我々は2つの堅牢な解決策を提案する。
(a)抽出した視覚特徴の上に複数のラベル設定で訓練された補助ヘッドの導入と,
b) 融合中の特徴を動的に選択するコンテキストゲートの追加。
ビデオキャプションの標準評価基準は, 地上の真実キャプションと類似度を測定し, 対象と行動の関連性を適切に把握していない。
そこで本研究では,新たな尺度であるCOAHA(Caption Object and Action Hallucination Assessment)を提案し,幻覚の度合いを評価する。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット、特に CIDEr のスコアにおいて、最先端のパフォーマンスを実現する。
関連論文リスト
- From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。