論文の概要: Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2507.04976v1
- Date: Mon, 07 Jul 2025 13:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.430009
- Title: Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models
- Title(参考訳): ビデオLLMは答えを拒否できるか? : ビデオ大言語モデルにおける解答可能性の調整
- Authors: Eunseop Yoon, Hee Suk Yoon, Mark A. Hasegawa-Johnson, Chang D. Yoo,
- Abstract要約: ビデオ大言語モデル(Video-LLM)は、主にビデオコンテンツから直接生成された質問に基づいて訓練される。
現実世界のシナリオでは、ユーザーはしばしば、ビデオの情報範囲を超えて広がる質問をする。
本稿では,ビデオLLMと,その映像に基づいて質問の関連性を評価するためのフレームワークである応答可能性のアライメントを提案する。
- 参考スコア(独自算出の注目度): 21.966865098520277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the broader context of deep learning, Multimodal Large Language Models have achieved significant breakthroughs by leveraging powerful Large Language Models as a backbone to align different modalities into the language space. A prime exemplification is the development of Video Large Language Models (Video-LLMs). While numerous advancements have been proposed to enhance the video understanding capabilities of these models, they are predominantly trained on questions generated directly from video content. However, in real-world scenarios, users often pose questions that extend beyond the informational scope of the video, highlighting the need for Video-LLMs to assess the relevance of the question. We demonstrate that even the best-performing Video-LLMs fail to reject unfit questions-not necessarily due to a lack of video understanding, but because they have not been trained to identify and refuse such questions. To address this limitation, we propose alignment for answerability, a framework that equips Video-LLMs with the ability to evaluate the relevance of a question based on the input video and appropriately decline to answer when the question exceeds the scope of the video, as well as an evaluation framework with a comprehensive set of metrics designed to measure model behavior before and after alignment. Furthermore, we present a pipeline for creating a dataset specifically tailored for alignment for answerability, leveraging existing video-description paired datasets.
- Abstract(参考訳): ディープラーニングのより広い文脈において、マルチモーダルな大規模言語モデルは、様々なモダリティを言語空間に整合させるバックボーンとして強力な大規模言語モデルを活用することで、大きなブレークスルーを達成した。
主な例はビデオ大言語モデル(Video Large Language Models, Video-LLMs)の開発である。
これらのモデルの映像理解能力を高めるために多くの進歩が提案されているが、主にビデオコンテンツから直接生成された質問に基づいて訓練されている。
しかし、現実のシナリオでは、ユーザーはビデオの情報の範囲を超えて、その質問の関連性を評価するためにビデオ-LLMが必要であることを強調して、質問をすることが多い。
ビデオ理解の欠如が原因で必ずしも不適切な質問を拒否できないだけでなく、そのような質問を特定・拒否する訓練を受けていないため、最も優れたビデオLLMでさえも不適切な質問を拒否できないことを実証する。
この制限に対処するために,ビデオ-LLMに映像のスコープを超えると,その質問の関連性を評価し,回答を適切に減少させる機能を持たせるためのアライメント機能と,アライメント前後のモデル行動を測定するための総合的な指標を備えた評価フレームワークを提案する。
さらに,既存のビデオ記述ペアデータセットを活用することで,回答可能性の調整に適したデータセットを作成するパイプラインを提案する。
関連論文リスト
- Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。