論文の概要: Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2604.17873v1
- Date: Mon, 20 Apr 2026 06:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.731448
- Title: Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models
- Title(参考訳): 時空間同期:ビデオ大言語モデルにおける否定に基づくガスライティング
- Authors: Ziyao Tang, Pengkun Jiao, Bin Zhu, Huiyan Qi, Jingjing Chen, Yu-Gang Jiang,
- Abstract要約: 我々は,Vid-LLMが正解し,否定に基づくガス灯下での判断を視覚的に下す失敗モードであるビデオサイファーシーを同定した。
モデルは単に答えを変更するのではなく、しばしば不正確な修正を正当化するために時間的または空間的な説明を作る。
GasVideo-1000は,視覚的根拠と時間的推論の要求を明確化して,ビデオの時間的サイコフィケーシーを探索するためのベンチマークである。
- 参考スコア(独自算出の注目度): 54.76242207842981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Language Models (Vid-LLMs) have demonstrated remarkable performance in video understanding tasks, yet their robustness under conversational interaction remains largely underexplored. In this paper, we identify spatiotemporal sycophancy, a failure mode in which Vid-LLMs retract initially correct, visually grounded judgments and conform to misleading user feedback under negation-based gaslighting. Rather than merely changing their answers, the models often fabricate unsupported temporal or spatial explanations to justify incorrect revisions. To systematically investigate this phenomenon, we propose a negation-based gaslighting evaluation framework and introduce GasVideo-1000, a curated benchmark designed to probe spatiotemporal sycophancy with clear visual grounding and temporal reasoning requirements. We evaluate a broad range of state-of-the-art open-source and proprietary Vid-LLMs across diverse video understanding tasks. Extensive experiments reveal that vulnerability to negation-based gaslighting is pervasive and severe, even among models with strong baseline performance. While prompt-level grounding constraints can partially mitigate this behavior, they do not reliably prevent hallucinated justifications or belief reversal. Our results indicate that current Vid-LLMs lack robust mechanisms for maintaining grounded spatiotemporal beliefs under adversarial conversational feedback.
- Abstract(参考訳): ビデオ大言語モデル(Vid-LLMs)は、ビデオ理解タスクにおいて顕著な性能を示したが、会話の相互作用下での頑健さはいまだに未熟である。
本稿では,Vid-LLMが最初に正しい判断を下し,否定に基づくガス灯下での誤解を招くユーザフィードバックに適合する障害モードである時空間同期を同定する。
モデルは単に答えを変更するのではなく、しばしば不正確な修正を正当化するために時間的または空間的な説明を作る。
本稿では,この現象を体系的に研究するために,否定に基づくガスライティング評価フレームワークの提案と,時間的視野の明確化と時間的推論要求による時空間サイコフィケーシーの探索を目的としたベンチマークであるGasVideo-1000を導入する。
我々は、様々なビデオ理解タスクにおいて、最先端のオープンソースおよびプロプライエタリなVid-LLMを幅広く評価する。
大規模な実験により、強力なベースライン性能を持つモデルであっても、否定に基づくガスライティングの脆弱性は広範かつ深刻であることが明らかとなった。
即席の接地制約はこの行為を部分的に緩和することができるが、幻覚的な正当化や信念の逆転を確実に防ぐことはできない。
以上の結果から,現在のVid-LLMは対人会話フィードバック下での時空間的信念を維持するための堅牢なメカニズムが欠如していることが示唆された。
関連論文リスト
- VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification [73.02304272829785]
VideoBenchは、証拠を厳格に検証する長ビデオ応答のための階層的なベンチマークだ。
これは、13のドメインに500の注釈付き質問を手動で記述し、時間間隔と空間境界ボックスを組み合わせて証拠とする。
GeminiPro-3-Proでさえ、標準のエンドツーエンドのQA設定で17%未満の質問に正しく答えている。
その結果,表面レベルでの回答の正しさと真正な証拠に基づく推論との間に大きなギャップが生じた。
論文 参考訳(メタデータ) (2026-04-02T03:29:43Z) - INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs [69.11382230669491]
ビデオ証拠(忠実さ)または検証可能な世界知識(事実性)のどちらかに矛盾する結果である幻覚
textscINFACTは、4つのモードでモデルを評価する。
14の代表的なビデオ-LLMの実験では、高ベースモード精度が誘導モードの信頼性に確実に変換されないことが明らかになった。
論文 参考訳(メタデータ) (2026-03-12T03:03:16Z) - Stress Tests REVEAL Fragile Temporal and Visual Grounding in Video-Language Models [18.243585941034116]
Video-Language Models (VidLM) は、ビデオの内容、時間的シーケンス、動きを強く説明する。
本稿では,現代Vidsの基礎的弱点を探索する診断ベンチマークREVEALを紹介する。
これらのモデルでは,映像コンテンツを無視しながら質問に回答し,虚偽の主張に同意し,基本的なカメラの動きに苦しむとともに,時間的スケーラブルな情報を収集することができない。
論文 参考訳(メタデータ) (2026-02-11T17:39:14Z) - Which Way Does Time Flow? A Psychophysics-Grounded Evaluation for Vision-Language Models [3.701776503593477]
現代の視覚言語モデル(VLM)は多くのマルチモーダルなタスクで優れるが、ビデオにおける時間的情報の把握は依然として弱く、決定的に過小評価されている。
短いクリップが前方または後方で再生されるか否かの矢印(AoT)を判断する。
AoT-PsyPhyBENCHは精神物理学的に検証されたベンチマークで、人間が確立した同じ刺激と行動ベースラインを用いて、VLMが自然ビデオの時間方向を推測できるかどうかをテストする。
論文 参考訳(メタデータ) (2025-10-30T08:21:50Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - Flattery in Motion: Benchmarking and Analyzing Sycophancy in Video-LLMs [18.07249962240035]
ビデオ大言語モデル(ビデオ-LLM)は、マルチモーダル推論を必要とする現実のアプリケーションにますます統合されている。
これらのモデルが視覚的エビデンスと矛盾する場合でも、ユーザ入力と整合する傾向は、そのような文脈において彼らの信頼性を損なう。
我々は,最新のビデオLLMにおけるサイコファンティックな振る舞いを評価するための最初のベンチマークであるVISE(Video-LLM Sycophancy Benchmarking and Evaluation)を提案する。
論文 参考訳(メタデータ) (2025-06-08T15:00:21Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。