Fugu-MT 論文翻訳(概要): VidMsg: A Benchmark for Implicit Message Inference in Short Videos

論文の概要: VidMsg: A Benchmark for Implicit Message Inference in Short Videos

arxiv url: http://arxiv.org/abs/2606.03635v1
Date: Tue, 02 Jun 2026 13:31:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:05.028551
Title: VidMsg: A Benchmark for Implicit Message Inference in Short Videos
Title（参考訳）: VidMsg:短いビデオのメッセージ推論のベンチマーク
Authors: Issar Tzachor, Michael Green, Rami Ben-Ari,
Abstract要約: Vidは、短いインターネットネイティブのビデオクリップで暗黙のメッセージ理解を評価するためのベンチマークである。 Vidには、9つの実用的なトピック領域にわたる400のYouTube由来のクリップと、52のきめ細かいターゲットメッセージが含まれている。
参考スコア（独自算出の注目度）: 8.389951375971123
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Understanding short online videos involves more than identifying visible objects and actions; video makers often include an underlying message or purpose in the clip. We introduce VidMsg, a benchmark for evaluating implicit message understanding in short, internet-native video clips. VidMsg contains 400 YouTube-derived clips across 9 practical topic areas and 52 fine-grained target messages, covering domains such as career and finance, education, health and well-being, culture, safety, sustainability, and lifestyle. VidMsg is constructed through a message-first pipeline: an LLM first translates target messages into indirect search scenarios, which are used to retrieve candidate clips. Human annotators then retain clips that convey the intended message without being overly explicit. VidMsg is designed primarily for bidirectional message-clip retrieval for scalable applications such as video search and recommendation, where systems must capture holistic video understanding. In addition to retrieval, VidMsg includes a diagnostic multiple-choice QA benchmark, where models select the intended message of a clip from semantically related alternatives. Experiments with contemporary video-language and retrieval models show that strong models often fail on VidMsg, because the task requires pragmatic inference, integration of contextual cues, and discrimination among semantically close messages. We also introduce VidVec-Msg, a baseline method that improves message-oriented retrieval while leaving substantial headroom for future work.
Abstract（参考訳）: 短いオンラインビデオを理解するには、目に見えるオブジェクトやアクションを識別する以上のものが含まれる。我々は、短いインターネットネイティブのビデオクリップで暗黙のメッセージ理解を評価するためのベンチマークであるVidMsgを紹介した。 VidMsgには、9つの実用的なトピック領域にわたる400のYouTube由来のクリップと、キャリアや金融、教育、健康と幸福、文化、安全、持続可能性、ライフスタイルといった分野をカバーする52の詳細なターゲットメッセージが含まれている。 VidMsgはメッセージファーストパイプラインを通じて構築される: LLMはまずターゲットメッセージを間接的な検索シナリオに変換する。人間のアノテーションは、意図したメッセージを伝えるクリップを、過度に明示されることなく保持する。 VidMsgは主に、ビデオ検索やレコメンデーションのようなスケーラブルなアプリケーションのための双方向メッセージクリップ検索のために設計されており、システムは全体像の理解を捉える必要がある。検索に加えて、VidMsgには診断用多重選択QAベンチマークが含まれており、モデルが意味論的に関連する代替手段からクリップの意図したメッセージを選択する。現代のビデオ言語と検索モデルによる実験では、強力なモデルがVidMsgで失敗することが多いことが示されている。また,VidVec-Msgという,メッセージ指向検索を改善するベースライン手法も導入した。

関連論文リスト

Fewer Steps, Better Performance: Efficient Cross-Modal Clip Trimming for Video Moment Retrieval Using Language [60.91064560080974]
本稿では,クエリ関連クリップをトリムするスポットVMRを提案する。提案するSpotVMRは,最新のVMR手法の効率性を実現するプラグイン・アンド・プレイモジュールとして機能する。
論文参考訳（メタデータ） (2026-05-28T11:42:28Z)
See, Rank, and Filter: Important Word-Aware Clip Filtering via Scene Understanding for Moment Retrieval and Highlight Detection [21.187420225759183]
自然言語クエリによるビデオモーメント検索(MR)とハイライト検出(HD)は、ビデオクリップ内の関連モーメントとキーハイライトをローカライズすることを目的としている。既存の方法は個々の単語の重要性を軽視し、テキストクエリ全体とビデオクリップをブラックボックスとして扱う。クエリにおいて重要な単語を識別・優先順位付けすることで、きめ細かいクリップフィルタリングを可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2025-11-28T06:22:50Z)
V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs [72.59885036868499]
v-HUBは視覚中心のビデオユーモア理解ベンチマークである。各ビデオクリップは、キャプション、説明、説明を含むリッチなアノテーションとペアリングされる。我々は,特殊なビデオLLMから音声処理が可能な汎用OmniLLMまで,MLLMの多様なセットを評価する。
論文参考訳（メタデータ） (2025-09-30T04:33:52Z)
MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models [56.49314029765706]
本稿では,LVMの幻覚を系統的に評価するベンチマークであるMESHを紹介する。 MESHでは、ターゲットインスタンスとトラップインスタンスを組み込んだバイナリとマルチチョイスフォーマットを備えたQA-Answeringフレームワークを使用している。我々は,MESHがビデオの幻覚を効果的かつ包括的に識別する手法であることを実証した。
論文参考訳（メタデータ） (2025-09-10T12:34:07Z)
CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。 CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文参考訳（メタデータ） (2025-05-24T07:01:31Z)
Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。 LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-04-15T13:56:14Z)
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文参考訳（メタデータ） (2024-12-31T15:53:50Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Semantic Video Moments Retrieval at Scale: A New Task and a Baseline [6.997674465889922]
Semantic Video Moments Retrieval at Scale (SVMR)は、関連ビデオの検索とビデオクリップの再ローカライズを目的としている。これらの課題に対処するため、我々は候補ビデオ検索の2段階ベースラインソリューションを提案し、それに続いて、新しいアテンションベースのクエリ参照セマンティックアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-15T22:46:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。