論文の概要: VIBE: Video-to-Text Information Bottleneck Evaluation for TL;DR
- arxiv url: http://arxiv.org/abs/2505.17423v1
- Date: Fri, 23 May 2025 03:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.784678
- Title: VIBE: Video-to-Text Information Bottleneck Evaluation for TL;DR
- Title(参考訳): VIBE:TL;DRのためのビデオ・テキスト・インフォメーション・ボトルネック評価
- Authors: Shenghui Chen, Po-han Li, Sandeep Chichali, Ufuk Topcu,
- Abstract要約: 現在の視覚言語モデル(VLM)は冗長で冗長な出力を生成し、タスクのパフォーマンスを阻害する。
既存のビデオキャプション評価は、コストのかかる人間のアノテーションに依存し、下流タスクにおける要約の実用性を見落としている。
VIBEは2つのメトリクスを使ってVLM出力をスコア付けする。
VIBEは、ランダムにサンプリングされたVLM出力から、2つのスコアにランク付けして、効果的な人的意思決定を支援する。
- 参考スコア(独自算出の注目度): 15.873301654027447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many decision-making tasks, where both accuracy and efficiency matter, still require human supervision. For example, tasks like traffic officers reviewing hour-long dashcam footage or researchers screening conference videos can benefit from concise summaries that reduce cognitive load and save time. Yet current vision-language models (VLMs) often produce verbose, redundant outputs that hinder task performance. Existing video caption evaluation depends on costly human annotations and overlooks the summaries' utility in downstream tasks. We address these gaps with Video-to-text Information Bottleneck Evaluation (VIBE), an annotation-free method that scores VLM outputs using two metrics: grounding (how well the summary aligns with visual content) and utility (how informative it is for the task). VIBE selects from randomly sampled VLM outputs by ranking them according to the two scores to support effective human decision-making. Human studies on LearningPaper24, SUTD-TrafficQA, and LongVideoBench show that summaries selected by VIBE consistently improve performance-boosting task accuracy by up to 61.23% and reducing response time by 75.77% compared to naive VLM summaries or raw video.
- Abstract(参考訳): 精度と効率が重要な意思決定タスクの多くは、人間の監督を必要とする。
例えば、交通警官が1時間にわたるダッシュカムの映像をレビューしたり、会議のビデオのチェックを行うといったタスクは、認知負荷と保存時間を短縮する簡潔な要約の恩恵を受けることができる。
しかし、現在の視覚言語モデル(VLM)は、しばしば冗長で冗長な出力を生成し、タスクのパフォーマンスを妨げます。
既存のビデオキャプション評価は、コストのかかる人間のアノテーションに依存し、下流タスクにおける要約の実用性を見落としている。
このギャップに対処するため,ビデオ・トゥ・テキスト・インフォメーション・ボトルネック・アセスメント(VIBE)という2つの指標を用いてVLM出力をスコアするアノテーションのない手法を提案する。
VIBEは、ランダムにサンプリングされたVLM出力から、2つのスコアにランク付けして、効果的な人的意思決定を支援する。
LearningPaper24、SUTD-TrafficQA、LongVideoBenchの人間による研究によると、VIBEが選択したサマリーは、通常のVLMサマリーや生のビデオと比較して、パフォーマンスブースティングタスクの精度を最大61.23%改善し、レスポンスタイムを75.77%削減している。
関連論文リスト
- WalkVLM:Aid Visually Impaired People Walking by Vision Language Model [29.340362062804967]
12,000対のビデオアノテーションペアからなる歩行支援専用の最初の大規模データセットを紹介した。
簡潔だが情報に富むリマインダーを生成する階層的計画に一連の思考を用いるWalkVLMモデルを提案する。
我々はブラインドウォーキングタスクの確固たるベンチマークを確立し、ストリームビデオ処理におけるWalkVLMの利点を検証した。
論文 参考訳(メタデータ) (2024-12-30T12:29:02Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - Characterizing Video Question Answering with Sparsified Inputs [55.7455981156755]
我々は、異なる入力間隔のタスクを特徴付け、それを行うためのツールを提供する。
具体的には、Gumbelベースの学習可能な選択モジュールを使用して、最終タスクに最適な入力を適応的に選択する。
実験の結果,5.2%~5.8%のパフォーマンス低下がみられ,ビデオの長さは10%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-27T21:00:20Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - How Good is a Video Summary? A New Benchmarking Dataset and Evaluation
Framework Towards Realistic Video Summarization [11.320914099324492]
6つのカテゴリにまたがる長いビデオで構成されるVISIOCITYと呼ばれる新しいベンチマークビデオデータセットを紹介します。
VISIOCITYに存在する間接的地上真実から複数の参照要約を自動的に生成する戦略を示す。
人間の判断に近い要約品質を定量的に評価するための評価枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-26T01:42:55Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。