論文の概要: Video-LevelGauge: Investigating Contextual Positional Bias in Large Video Language Models
- arxiv url: http://arxiv.org/abs/2508.19650v1
- Date: Wed, 27 Aug 2025 07:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.548657
- Title: Video-LevelGauge: Investigating Contextual Positional Bias in Large Video Language Models
- Title(参考訳): Video-LevelGauge:大規模ビデオ言語モデルにおける文脈的位置バイアスの調査
- Authors: Hou Xia, Zheren Fu, Fangcan Ling, Jiajun Li, Yi Tu, Zhendong Mao, Yongdong Zhang,
- Abstract要約: 大規模ビデオ言語モデル(LVLM)における位置バイアスを評価するためのベンチマークであるVideo-LevelGaugeを提案する。
我々は、標準化されたプローブとカスタマイズされたコンテキスト設定を採用し、コンテキスト長、プローブ位置、コンテキストタイプを柔軟に制御できる。
ベンチマークでは、複数のタイプにまたがる438の動画を手動でキュレートし、117の高品質なマルチチョイスの質問と120のオープンエンドの質問を得た。
- 参考スコア(独自算出の注目度): 51.67019924750931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large video language models (LVLMs) have made notable progress in video understanding, spurring the development of corresponding evaluation benchmarks. However, existing benchmarks generally assess overall performance across entire video sequences, overlooking nuanced behaviors such as contextual positional bias, a critical yet under-explored aspect of LVLM performance. We present Video-LevelGauge, a dedicated benchmark designed to systematically assess positional bias in LVLMs. We employ standardized probes and customized contextual setups, allowing flexible control over context length, probe position, and contextual types to simulate diverse real-world scenarios. In addition, we introduce a comprehensive analysis method that combines statistical measures with morphological pattern recognition to characterize bias. Our benchmark comprises 438 manually curated videos spanning multiple types, yielding 1,177 high-quality multiple-choice questions and 120 open-ended questions, validated for their effectiveness in exposing positional bias. Based on these, we evaluate 27 state-of-the-art LVLMs, including both commercial and open-source models. Our findings reveal significant positional biases in many leading open-source models, typically exhibiting head or neighbor-content preferences. In contrast, commercial models such as Gemini2.5-Pro show impressive, consistent performance across entire video sequences. Further analyses on context length, context variation, and model scale provide actionable insights for mitigating bias and guiding model enhancement.
- Abstract(参考訳): 大規模ビデオ言語モデル(LVLM)は、ビデオ理解において顕著な進歩を遂げ、対応する評価ベンチマークの開発に拍車をかけた。
しかしながら、既存のベンチマークは一般的に、LVLM性能の批判的かつ未調査な側面である文脈的位置偏差などのニュアンスな振る舞いを見越して、ビデオシーケンス全体のパフォーマンスを評価する。
LVLMにおける位置バイアスを体系的に評価する専用のベンチマークであるVideo-LevelGaugeを提案する。
我々は、標準化されたプローブとカスタマイズされたコンテキスト設定を採用し、コンテキスト長、プローブ位置、コンテキストタイプを柔軟に制御し、様々な現実世界のシナリオをシミュレートする。
さらに,統計的測度と形態素パターン認識を組み合わせ,偏りを特徴づける包括的分析手法を提案する。
本ベンチマークでは,複数種類の動画を手作業で編集し,高品質なマルチチョイス質問1,177件,オープンエンド質問120件を作成した。
これらに基づいて,商用およびオープンソースモデルを含む27の最先端LVLMを評価した。
本研究は,多くの主要なオープンソースモデルにおいて,頭部や近傍のコンテントの嗜好を示す重要な位置バイアスを呈するものである。
対照的に、Gemini2.5-Proのような商用モデルは、全ビデオシーケンスで印象的で一貫したパフォーマンスを示している。
文脈長、文脈変動、モデルスケールに関するさらなる分析は、バイアスを緩和し、モデル強化を導くための実用的な洞察を提供する。
関連論文リスト
- HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - BiMa: Towards Biases Mitigation for Text-Video Retrieval via Scene Element Guidance [10.268638578607977]
BiMaは、視覚的およびテキスト的表現のバイアスを軽減するために設計された新しいフレームワークである。
視覚障害者には、これらのシーン要素をビデオ埋め込みに統合し、きめ細かな細部と細部を強調できるようにします。
テキストの偏りを解消するために,テキスト特徴をコンテンツやバイアス成分に分解する機構を導入し,意味のあるコンテンツに集中できるようにする。
論文 参考訳(メタデータ) (2025-06-04T05:40:54Z) - Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.252597615544317]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。
現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。
本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文 参考訳(メタデータ) (2024-10-18T07:52:22Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。