Fugu-MT 論文翻訳(概要): M2K-VDG: Model-Adaptive Multimodal Knowledge Anchor Enhanced Video-grounded Dialogue Generation

論文の概要: M2K-VDG: Model-Adaptive Multimodal Knowledge Anchor Enhanced Video-grounded Dialogue Generation

arxiv url: http://arxiv.org/abs/2402.11875v1
Date: Mon, 19 Feb 2024 06:32:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 18:03:06.778985
Title: M2K-VDG: Model-Adaptive Multimodal Knowledge Anchor Enhanced Video-grounded Dialogue Generation
Title（参考訳）: M2K-VDG: モデル適応型マルチモーダル知識アンカーによるビデオ地上対話生成
Authors: Hongcheng Liu and Pingjie Wang and Yu Wang and Yanfeng Wang
Abstract要約: ビデオグラウンドド・ダイアログ生成(VDG)では,マルチモーダル知識に基づいて,流動的で正確な回答を生成する必要がある。マルチモーダル知識利用の難しさは、実際にはVDGモデルに深刻な幻覚をもたらす。幻覚軽減のためのモデル適応型マルチモーダル知識アンカー拡張フレームワークM2K-VDGを提案する。
参考スコア（独自算出の注目度）: 24.480587619037184
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video-grounded dialogue generation (VDG) requires the system to generate a fluent and accurate answer based on multimodal knowledge. However, the difficulty in multimodal knowledge utilization brings serious hallucinations to VDG models in practice. Although previous works mitigate the hallucination in a variety of ways, they hardly take notice of the importance of the multimodal knowledge anchor answer tokens. In this paper, we reveal via perplexity that different VDG models experience varying hallucinations and exhibit diverse anchor tokens. Based on this observation, we propose M2K-VDG, a model-adaptive multimodal knowledge anchor enhancement framework for hallucination reduction. Furthermore, we introduce the counterfactual effect for more accurate anchor token detection. The experimental results on three popular benchmarks exhibit the superiority of our approach over state-of-the-art methods, demonstrating its effectiveness in reducing hallucinations.
Abstract（参考訳）: ビデオグラウンドド・ダイアログ生成(VDG)では,マルチモーダル知識に基づいて,流動的で正確な回答を生成する必要がある。しかし、マルチモーダル知識利用の難しさは、実際にはVDGモデルに深刻な幻覚をもたらす。以前の研究は幻覚を様々な方法で緩和したものの、マルチモーダル知識アンカー応答トークンの重要性にはほとんど気付いていない。本稿では,異なるVDGモデルがさまざまな幻覚を経験し,多様なアンカートークンを示すことを明らかにする。そこで本研究では,モデル適応型マルチモーダル知識アンカー拡張フレームワークであるm2k-vdgを提案する。さらに,より正確なアンカートークン検出のための対策効果についても紹介する。一般的な3つのベンチマーク実験の結果,最先端手法に対するアプローチの優位性を示し,幻覚の低減効果を示した。

関連論文リスト

EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文参考訳（メタデータ） (2025-01-06T00:39:31Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文参考訳（メタデータ） (2024-10-09T11:46:32Z)
Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models [25.386858937068478]
MLLM(Multimodal Large Language Models)は幻覚、特に視覚入力に存在しないコンテンツを断定的に生成する。本稿では,外部知識検索や微調整を必要とせず,新たな幻覚緩和パラダイムであるメモリスペース・ビジュアル・リトラクション(MemVR)を紹介する。特に、モデルが不確かである場合や、質問関連視覚記憶に注意を払っている場合、フィードフォワードネットワーク(FFN)を介してMLLMにリジェクションされる補助的証拠として視覚刺激をキーバリューメモリとして扱う。
論文参考訳（メタデータ） (2024-10-04T16:30:54Z)
ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models [11.75855265467876]
トレーニング不要なコントラスト復号法であるConVisを導入する。一般的な5つのベンチマーク実験により、ConVisは様々なMLLMの幻覚を効果的に低減することを示した。
論文参考訳（メタデータ） (2024-08-25T18:02:36Z)
Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding [25.4933695784155]
ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。実世界のアプリケーションとのギャップを埋めるために,ビデオデータセット用の大規模主観応答指標を導入する。我々は,異なるユーザ間での映像コンテンツの認知的理解度を分析し,評価するためのタスクとプロトコルを開発した。
論文参考訳（メタデータ） (2024-07-11T03:00:26Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。提案手法の有効性を示す4種類のLVLMについて検討した。
論文参考訳（メタデータ） (2024-05-29T15:28:42Z)
Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。 M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文参考訳（メタデータ） (2024-03-20T22:05:18Z)
Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective [55.41815486466186]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文参考訳（メタデータ） (2024-02-22T13:33:13Z)
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文参考訳（メタデータ） (2023-11-20T15:56:44Z)
MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文参考訳（メタデータ） (2021-06-04T17:57:39Z)
Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文参考訳（メタデータ） (2020-10-20T03:06:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。