論文の概要: Flattery in Motion: Benchmarking and Analyzing Sycophancy in Video-LLMs
- arxiv url: http://arxiv.org/abs/2506.07180v1
- Date: Sun, 08 Jun 2025 15:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.703053
- Title: Flattery in Motion: Benchmarking and Analyzing Sycophancy in Video-LLMs
- Title(参考訳): 動きの香り:ビデオLLMにおける同期のベンチマークと分析
- Authors: Wenrui Zhou, Shu Yang, Qingsong Yang, Zikun Guo, Lijie Hu, Di Wang,
- Abstract要約: ビデオ大言語モデル(ビデオ-LLM)は、マルチモーダル推論を必要とする現実のアプリケーションにますます統合されている。
これらのモデルが視覚的エビデンスと矛盾する場合でも、ユーザ入力と整合する傾向は、そのような文脈において彼らの信頼性を損なう。
我々は,最新のビデオLLMにおけるサイコファンティックな振る舞いを評価するための,最初の専用ベンチマークであるVISE(Video-LLM Sycophancy Benchmarking and Evaluation)を提案する。
- 参考スコア(独自算出の注目度): 6.527988482383714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As video large language models (Video-LLMs) become increasingly integrated into real-world applications that demand grounded multimodal reasoning, ensuring their factual consistency and reliability is of critical importance. However, sycophancy, the tendency of these models to align with user input even when it contradicts the visual evidence, undermines their trustworthiness in such contexts. Current sycophancy research has largely overlooked its specific manifestations in the video-language domain, resulting in a notable absence of systematic benchmarks and targeted evaluations to understand how Video-LLMs respond under misleading user input. To fill this gap, we propose VISE (Video-LLM Sycophancy Benchmarking and Evaluation), the first dedicated benchmark designed to evaluate sycophantic behavior in state-of-the-art Video-LLMs across diverse question formats, prompt biases, and visual reasoning tasks. Specifically, VISE pioneeringly brings linguistic perspectives on sycophancy into the visual domain, enabling fine-grained analysis across multiple sycophancy types and interaction patterns. In addition, we explore key-frame selection as an interpretable, training-free mitigation strategy, which reveals potential paths for reducing sycophantic bias by strengthening visual grounding.
- Abstract(参考訳): ビデオ大言語モデル(ビデオ-LLM)がマルチモーダル推論を必要とする現実世界のアプリケーションにますます統合されていくにつれ、現実の一貫性と信頼性が重要になる。
しかし、これらのモデルが視覚的証拠と矛盾する場合でも、ユーザ入力と整合する傾向にあるため、そのような文脈における信頼感を損なう。
現在の梅毒研究は、ビデオ言語領域における特定の徴候を概ね見落としており、結果として、ビデオ-LLMが誤ったユーザ入力の下でどのように反応するかを理解するために、系統的なベンチマークや対象評価が欠如している。
このギャップを埋めるために,VSE (Video-LLM Sycophancy Benchmarking and Evaluation) を提案する。
具体的には、VISEが先駆的に視覚領域に梅毒の言語的視点を持ち込み、複数の梅毒の種類や相互作用パターンの詳細な分析を可能にした。
さらに、キーフレームの選択を、視覚的接地を強化することで、幻覚的バイアスを軽減する潜在的な経路を明らかにする、解釈可能な、トレーニング不要な緩和戦略として検討する。
関連論文リスト
- Interpreting Social Bias in LVLMs via Information Flow Analysis and Multi-Round Dialogue Evaluation [1.7997395646080083]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な進歩を遂げているが、社会的偏見も顕著である。
本稿では,情報フロー解析と多ラウンド対話評価を組み合わせた説明フレームワークを提案する。
実験により、LVLMは異なる人口集団の画像を処理する際に、情報利用の体系的な差異を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T12:28:44Z) - SurveillanceVQA-589K: A Benchmark for Comprehensive Surveillance Video-Language Understanding with Large Models [8.402075279942256]
SurveillanceVQA-589Kは、監視領域に合わせた最大規模のビデオ質問応答ベンチマークである。
データセットは、認知的に多様な質問タイプにまたがる589,380のQAペアで構成されている。
我々のベンチマークは、安全クリティカルなアプリケーションにおけるビデオ言語理解を促進するための実用的で包括的なリソースを提供する。
論文 参考訳(メタデータ) (2025-05-19T00:57:04Z) - Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。
IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。
我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文 参考訳(メタデータ) (2025-05-15T17:52:40Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。