論文の概要: M2K-VDG: Model-Adaptive Multimodal Knowledge Anchor Enhanced
Video-grounded Dialogue Generation
- arxiv url: http://arxiv.org/abs/2402.11875v1
- Date: Mon, 19 Feb 2024 06:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:03:06.778985
- Title: M2K-VDG: Model-Adaptive Multimodal Knowledge Anchor Enhanced
Video-grounded Dialogue Generation
- Title(参考訳): M2K-VDG: モデル適応型マルチモーダル知識アンカーによるビデオ地上対話生成
- Authors: Hongcheng Liu and Pingjie Wang and Yu Wang and Yanfeng Wang
- Abstract要約: ビデオグラウンドド・ダイアログ生成(VDG)では,マルチモーダル知識に基づいて,流動的で正確な回答を生成する必要がある。
マルチモーダル知識利用の難しさは、実際にはVDGモデルに深刻な幻覚をもたらす。
幻覚軽減のためのモデル適応型マルチモーダル知識アンカー拡張フレームワークM2K-VDGを提案する。
- 参考スコア(独自算出の注目度): 24.480587619037184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-grounded dialogue generation (VDG) requires the system to generate a
fluent and accurate answer based on multimodal knowledge. However, the
difficulty in multimodal knowledge utilization brings serious hallucinations to
VDG models in practice. Although previous works mitigate the hallucination in a
variety of ways, they hardly take notice of the importance of the multimodal
knowledge anchor answer tokens. In this paper, we reveal via perplexity that
different VDG models experience varying hallucinations and exhibit diverse
anchor tokens. Based on this observation, we propose M2K-VDG, a model-adaptive
multimodal knowledge anchor enhancement framework for hallucination reduction.
Furthermore, we introduce the counterfactual effect for more accurate anchor
token detection. The experimental results on three popular benchmarks exhibit
the superiority of our approach over state-of-the-art methods, demonstrating
its effectiveness in reducing hallucinations.
- Abstract(参考訳): ビデオグラウンドド・ダイアログ生成(VDG)では,マルチモーダル知識に基づいて,流動的で正確な回答を生成する必要がある。
しかし、マルチモーダル知識利用の難しさは、実際にはVDGモデルに深刻な幻覚をもたらす。
以前の研究は幻覚を様々な方法で緩和したものの、マルチモーダル知識アンカー応答トークンの重要性にはほとんど気付いていない。
本稿では,異なるVDGモデルがさまざまな幻覚を経験し,多様なアンカートークンを示すことを明らかにする。
そこで本研究では,モデル適応型マルチモーダル知識アンカー拡張フレームワークであるm2k-vdgを提案する。
さらに,より正確なアンカートークン検出のための対策効果についても紹介する。
一般的な3つのベンチマーク実験の結果,最先端手法に対するアプローチの優位性を示し,幻覚の低減効果を示した。
関連論文リスト
- Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Less is More: Mitigating Multimodal Hallucination from an EOS Decision
Perspective [62.284452344672125]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。
生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文 参考訳(メタデータ) (2024-02-22T13:33:13Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。