論文の概要: VidLBEval: Benchmarking and Mitigating Language Bias in Video-Involved LVLMs
- arxiv url: http://arxiv.org/abs/2502.16602v1
- Date: Sun, 23 Feb 2025 15:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:41.320561
- Title: VidLBEval: Benchmarking and Mitigating Language Bias in Video-Involved LVLMs
- Title(参考訳): VidLBEval:ビデオ関連LVLMにおける言語バイアスのベンチマークと緩和
- Authors: Yiming Yang, Yangyang Guo, Hui Lu, Yan Wang,
- Abstract要約: 本稿では,既存のビデオ関連LVLMの言語バイアスから,ほとんど探索されていない問題を明らかにする。
ビデオ関連LVLMの言語バイアスを評価するために,まずビデオ言語バイアス評価ベンチマークを収集する。
また,言語バイアスに対処するため,Multi-branch Contrastive Decoding (MCD)を提案する。
- 参考スコア(独自算出の注目度): 37.52094200472755
- License:
- Abstract: Recently, Large Vision-Language Models (LVLMs) have made significant strides across diverse multimodal tasks and benchmarks. This paper reveals a largely under-explored problem from existing video-involved LVLMs - language bias, where models tend to prioritize language over video and thus result in incorrect responses. To address this research gap, we first collect a Video Language Bias Evaluation Benchmark, which is specifically designed to assess the language bias in video-involved LVLMs through two key tasks: ambiguous video contrast and interrogative question probing. Accordingly, we design accompanied evaluation metrics that aim to penalize LVLMs being biased by language. In addition, we also propose Multi-branch Contrastive Decoding (MCD), introducing two expert branches to simultaneously counteract language bias potentially generated by the amateur text-only branch. Our experiments demonstrate that i) existing video-involved LVLMs, including both proprietary and open-sourced, are largely limited by the language bias problem; ii) our MCD can effectively mitigate this issue and maintain general-purpose capabilities in various video-involved LVLMs without any additional retraining or alteration to model architectures.
- Abstract(参考訳): 近年、LVLM(Large Vision-Language Models)は様々なマルチモーダルタスクやベンチマークにおいて大きな進歩を遂げている。
本稿では,既存のビデオ関連LVLMの言語バイアス,すなわちモデルがビデオよりも言語を優先し,結果として誤った応答をもたらすという,ほとんど探索されていない問題を明らかにする。
この研究ギャップに対処するために、まずビデオ言語バイアス評価ベンチマークを収集し、ビデオ関連LVLMにおける言語バイアスを、曖昧なビデオコントラストと疑わしい質問探索という2つの重要なタスクによって評価する。
そこで我々は,LVLMが言語に偏っていることをペナルティ化する評価指標を設計した。
また,MCD(Multi-branch Contrastive Decoding)を提案する。
私たちの実験は
一 プロプライエタリ及びオープンソースの両方を含む既存のビデオ関連LVLMは、言語バイアスの問題により大きく制限されている。
二 この問題を効果的に緩和し、モデルアーキテクチャに追加の訓練や変更を加えることなく、様々なビデオ関連LVLMにおける汎用能力を維持することができる。
関連論文リスト
- Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning [15.877954360180468]
MLLM(Multimodal Large Language Models)のトレーニングは、リソース集約型であり、様々なトレーニング制限によって制限される。
本稿では,MVCD(Modular-based Visual Contrastive Decoding)フレームワークを提案する。
我々のフレームワークは、LLMのICL(In-Context Learning)機能と、提案した視覚コントラスト・サンプル・デコーディング(CED)を活用している。
その結果、モデル精度が一貫した改善を示し、復号化戦略における有効成分をうまく説明できた。
論文 参考訳(メタデータ) (2025-02-17T12:47:00Z) - Zero-shot Video Moment Retrieval via Off-the-shelf Multimodal Large Language Models [7.213221003652941]
本稿では,凍結MLLMを用いたゼロショットVMRのためのチューニング不要パイプラインであるMoment-GPTを提案する。
我々はまずLLaMA-3を用いて言語バイアスを軽減するためにクエリの修正と表現を行い、その後MiniGPT-v2と組み合わせたスパンジェネレータを設計し、候補スパンを適応的に生成する。
提案手法は,複数の公開データセット上で,最先端のMLLMベースおよびゼロショットモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-14T09:45:10Z) - Fine-grained Video-Text Retrieval: A New Benchmark and Method [25.2967056489715]
FIBERは,FineActionデータセットから生成した1,000本のビデオを含むビデオ検索に,テキスト用の微細なbenchmarkである。
FIBERベンチマークでは,ビデオ毎の詳細な空間アノテーションと時間アノテーションが提供されている。
実験の結果,従来のベンチマークにおいて,ビデオ大言語(VLLE)はCLIPベースのモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Long Video Understanding with Learnable Retrieval in Video-Language Models [36.793956806567834]
本稿では,学習可能な検索ベースビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高いKビデオチャンクを特定し、選択する。
これにより、ビデオトークンの数を効果的に減らし、ノイズ干渉をなくし、システム性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。