論文の概要: A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs
- arxiv url: http://arxiv.org/abs/2606.04596v1
- Date: Wed, 03 Jun 2026 08:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.632714
- Title: A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs
- Title(参考訳): MLLMを用いたマルチビデオ要約における位置バイアスの系統的評価
- Authors: Huangchen Xu, Yuan Wu, Yi Chang,
- Abstract要約: 映像毎の要約の質がビデオの入力スロットによって変化しうるマルチビデオ要約における位置バイアスについて検討する。
9つのオープンソースおよびプロプライエタリなMLLMを評価し,3つの相補的指標を用いて位置効果を測定した。
- 参考スコア(独自算出の注目度): 16.995082216096787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are increasingly used for video understanding, yet their reliability under multi-video inputs remains poorly understood. We study positional bias in multi-video summarization, where the quality of a per-video summary can change with the video's input slot even when the underlying content is unchanged. We construct a benchmark from ActivityNet and News videos, covering Cooking, Domestic, Leisure, and News settings with two- and four-video inputs. We evaluate nine open-source and proprietary MLLMs and measure position effects with three complementary metrics: Coverage, Directional Positional Bias (DPB), and Middle-Edge Gap (MEG). Our results show that positional effects are domain- and model-dependent: signed directional bias can be small even when middle positions underperform, and increasing visual or generation budget does not uniformly remove the imbalance. We further analyze prompt-level mitigation methods. Together, the results show that multi-video summarization remains sensitive to input protocol and position, motivating more robust order-invariant multimodal systems.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はビデオ理解に使用されることが多いが、マルチビデオ入力下での信頼性はいまだによく分かっていない。
マルチビデオ要約における位置バイアスについて検討し、基礎となる内容が変化しても映像の入力スロットによって映像ごとの要約の質が変化しうることを示した。
本研究では,Cooking,Domestic,Leisure,Newsの設定を2本と4本の入力でカバーする,ActivityNetとNewsのビデオのベンチマークを構築した。
我々は,9つのオープンソースおよびプロプライエタリMLLMを評価し,3つの相補的指標(Coverage, Directional Positional Bias (DPB),Middle-Edge Gap (MEG))で位置効果を測定した。
この結果から, 位置の影響はドメイン依存とモデル依存であり, 中位が不備な場合でも符号付き方向バイアスは小さくなり, 視覚的・生成的予算の増大は不均衡を均一に除去しないことがわかった。
我々はさらに、プロンプトレベルの緩和方法を分析する。
その結果,マルチビデオの要約は入力プロトコルや位置に敏感なままであり,より堅牢な順序不変マルチモーダルシステムの動機となっていることがわかった。
関連論文リスト
- VideoVeritas: AI-Generated Video Detection via Perception Pretext Reinforcement Learning [42.22791607763693]
VideoVeritasは、きめ細かい認識と事実に基づく推論のためのフレームワークだ。
共同知覚選好と知覚Pretext Reinforcement Learningが使用される。
論文 参考訳(メタデータ) (2026-02-09T16:00:01Z) - Video-LevelGauge: Investigating Contextual Positional Bias in Large Video Language Models [51.67019924750931]
Video-LevelGaugeは、大規模ビデオ言語モデル(LVLM)における位置バイアスを評価するために設計されたベンチマークである。
我々は、標準化されたプローブとカスタマイズされたコンテキスト設定を採用し、コンテキスト長、プローブ位置、コンテキストタイプを柔軟に制御できる。
ベンチマークでは、複数のタイプにまたがる438の動画を手動でキュレートし、117の高品質なマルチチョイスの質問と120のオープンエンドの質問を得た。
論文 参考訳(メタデータ) (2025-08-27T07:58:16Z) - VidLBEval: Benchmarking and Mitigating Language Bias in Video-Involved LVLMs [37.52094200472755]
本稿では,既存のビデオ関連LVLMの言語バイアスから,ほとんど探索されていない問題を明らかにする。
ビデオ関連LVLMの言語バイアスを評価するために,まずビデオ言語バイアス評価ベンチマークを収集する。
また,言語バイアスに対処するため,Multi-branch Contrastive Decoding (MCD)を提案する。
論文 参考訳(メタデータ) (2025-02-23T15:04:23Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。