Fugu-MT 論文翻訳(概要): AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models

論文の概要: AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models

arxiv url: http://arxiv.org/abs/2410.18325v1
Date: Wed, 23 Oct 2024 23:36:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.699907
Title: AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models
Title（参考訳）: AVHBench: オーディオ・ビジュアル大言語モデルのためのクロスプラットフォーム幻覚ベンチマーク
Authors: Kim Sung-Bin, Oh Hyun-Bin, JungMok Lee, Arda Senocak, Joon Son Chung, Tae-Hyun Oh,
Abstract要約: AVHBenchは、音声視覚モデルの知覚と理解能力を評価するために設計された最初の総合的なベンチマークである。以上の結果から,既存のLLMはモダリティ間の相互相互作用による幻覚に苦慮していることが明らかとなった。 AVHBenchを用いた簡単なトレーニングにより、幻覚に対する聴覚的LLMの堅牢性が改善される。
参考スコア（独自算出の注目度）: 27.430040932849018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Following the success of Large Language Models (LLMs), expanding their boundaries to new modalities represents a significant paradigm shift in multimodal understanding. Human perception is inherently multimodal, relying not only on text but also on auditory and visual cues for a complete understanding of the world. In recognition of this fact, audio-visual LLMs have recently emerged. Despite promising developments, the lack of dedicated benchmarks poses challenges for understanding and evaluating models. In this work, we show that audio-visual LLMs struggle to discern subtle relationships between audio and visual signals, leading to hallucinations, underscoring the need for reliable benchmarks. To address this, we introduce AVHBench, the first comprehensive benchmark specifically designed to evaluate the perception and comprehension capabilities of audio-visual LLMs. Our benchmark includes tests for assessing hallucinations, as well as the cross-modal matching and reasoning abilities of these models. Our results reveal that most existing audio-visual LLMs struggle with hallucinations caused by cross-interactions between modalities, due to their limited capacity to perceive complex multimodal signals and their relationships. Additionally, we demonstrate that simple training with our AVHBench improves robustness of audio-visual LLMs against hallucinations.
Abstract（参考訳）: LLM(Large Language Models)の成功に続いて、その境界を新しいモダリティに拡張することは、マルチモーダル理解における重要なパラダイムシフトである。人間の知覚は本質的にマルチモーダルであり、テキストだけでなく、世界を完全に理解するための聴覚や視覚の手がかりにも依存している。この事実を認識して、近年オーディオ視覚LPMが出現している。有望な開発にもかかわらず、専用ベンチマークの欠如は、モデルの理解と評価に課題をもたらしている。本研究では,音声と視覚信号の微妙な関係の識別に苦慮し,幻覚を招き,信頼性の高いベンチマークの必要性を浮き彫りにする。 AVHBenchは、視覚的LLMの知覚と理解能力を評価するために設計された最初の総合的なベンチマークである。本ベンチマークでは,幻覚評価試験と,これらのモデルの相互一致と推論能力について検討した。以上の結果から,既存のLLMは複雑なマルチモーダル信号の知覚能力に限界があるため,モダリティ間の相互相互作用による幻覚に苦慮していることが明らかとなった。さらに,AVHBenchを用いた簡単なトレーニングにより,幻覚に対する視覚的LLMの堅牢性が向上することを示した。

関連論文リスト

Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens [0.0]
大規模視覚言語モデル (LVLM) は、顕著なマルチモーダル理解と推論能力を示した。 LVLMはテキストのプロンプトと大きな言語モデルの内部知識に過度に依存し、視覚的手がかりと矛盾する記述を生成する傾向がある。物体幻覚を緩和するためのトレーニング不要な手法を提案する。
論文参考訳（メタデータ） (2025-08-04T13:40:59Z)
Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。 LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文参考訳（メタデータ） (2025-05-20T15:44:01Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
ビデオベースの幻覚を評価するために特別に設計されたベンチマークであるVidHalを紹介する。 VidHalの明確な特徴は、各ビデオに関連する様々なレベルのキャプションを表すキャプションを慎重に作成することである。本稿では,VLLMの字幕ランク付けを必要とする新規な字幕順序付けタスクを提案する。
論文参考訳（メタデータ） (2024-11-25T06:17:23Z)
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。本研究は,幻覚に対する2つの重要な要因を明らかにした。私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文参考訳（メタデータ） (2024-10-16T17:59:02Z)
Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文参考訳（メタデータ） (2024-09-15T14:38:29Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文参考訳（メタデータ） (2024-06-12T16:51:54Z)
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。統計的解析から,大規模視覚言語モデルにおける幻覚の重要な要因を明らかにする。提案手法の有効性を示す4種類のLVLMについて検討した。
論文参考訳（メタデータ） (2024-05-29T15:28:42Z)
DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models [26.289847386286446]
本稿では,対話レベルの幻覚評価ベンチマークDiaHaluを提案する。収集したトピックをシステムプロンプトに統合し、2つのChatGPT3.5間の対話を促進する。人間の言語規則に従わない内容を手動で修正し、LLMを再生させ、人間と機械の相互作用のシナリオをシミュレートする。
論文参考訳（メタデータ） (2024-03-01T15:38:55Z)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文参考訳（メタデータ） (2024-01-11T18:58:36Z)
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文参考訳（メタデータ） (2023-12-12T04:05:15Z)
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。 LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文参考訳（メタデータ） (2023-11-09T09:25:37Z)
Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。 FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。 FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文参考訳（メタデータ） (2023-10-09T17:00:20Z)
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文参考訳（メタデータ） (2023-09-03T16:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。