論文の概要: Temporally-Grounded Language Generation: A Benchmark for Real-Time Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.11326v1
- Date: Fri, 16 May 2025 14:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.366792
- Title: Temporally-Grounded Language Generation: A Benchmark for Real-Time Vision-Language Models
- Title(参考訳): 時空間言語生成:リアルタイムビジョン言語モデルのベンチマーク
- Authors: Keunwoo Peter Yu, Joyce Chai,
- Abstract要約: 視覚言語モデル(VLM)は、画像キャプションやビデオ質問応答などのオフラインタスクにおいて顕著な進歩を見せている。
リアルタイムの対話環境はVLMに新たな要求を課し、意味論的に正確であるだけでなく正確なタイミングで発話を生成する必要がある。
時間同期型インターリーブ(VLM-TSI)$.textbfVision-Languageモデルは、時間同期型で視覚的および言語的トークンをインターリーブするモデルである。
- 参考スコア(独自算出の注目度): 14.69446469340837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have shown remarkable progress in offline tasks such as image captioning and video question answering. However, real-time interactive environments impose new demands on VLMs, requiring them to generate utterances that are not only semantically accurate but also precisely timed. We identify two core capabilities necessary for such settings -- $\textit{perceptual updating}$ and $\textit{contingency awareness}$ -- and propose a new benchmark task, $\textbf{Temporally-Grounded Language Generation (TGLG)}$, to evaluate them. TGLG requires models to generate utterances in response to streaming video such that both content and timing align with dynamic visual input. To support this benchmark, we curate evaluation datasets from sports broadcasting and egocentric human interaction domains, and introduce a new metric, $\textbf{TRACE}$, to evaluate TGLG by jointly measuring semantic similarity and temporal alignment. Finally, we present $\textbf{Vision-Language Model with Time-Synchronized Interleaving (VLM-TSI)}$, a model that interleaves visual and linguistic tokens in a time-synchronized manner, enabling real-time language generation without relying on turn-based assumptions. Experimental results show that VLM-TSI significantly outperforms a strong baseline, yet overall performance remains modest -- highlighting the difficulty of TGLG and motivating further research in real-time VLMs. Code and data available $\href{https://github.com/yukw777/tglg}{here}$.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像キャプションやビデオ質問応答などのオフラインタスクにおいて顕著な進歩を見せている。
しかし、リアルタイムの対話環境はVLMに新たな要求を課し、意味論的に正確であるだけでなく正確なタイミングで発話を生成する必要がある。
このような設定に必要な2つのコア機能 -- $\textit{perceptual updates}$と$\textit{contingency awareness}$ -- を特定し、それらを評価するために新しいベンチマークタスクである$\textbf{Temporally-Grounded Language Generation (TGLG)}$を提案します。
TGLGは、コンテンツとタイミングの両方が動的視覚入力と整合するように、ストリーミングビデオに応答して発話を生成するモデルを必要とする。
このベンチマークをサポートするために,スポーツ放送と人間中心のインタラクションドメインから評価データセットをキュレートし,意味的類似性と時間的アライメントを共同で測定することで,TGLGを評価するための新たな指標である$\textbf{TRACE}$を導入する。
最後に、時間同期型インターリーブ(VLM-TSI)$を、時間同期型で視覚的および言語的トークンをインターリーブし、ターンベースの仮定に頼ることなくリアルタイム言語生成を可能にするモデルとして提示する。
VLM-TSIは,TGLGの難しさとリアルタイムVLMのさらなる研究の動機を浮き彫りにしている。
コードとデータは、$\href{https://github.com/yukw777/tglg}{here}$で利用可能である。
関連論文リスト
- Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
時間的推論と大規模マルチモーダルデータ処理の必要性から,Long Video Question Answering (LVQA) は困難である。
非常に長い動画を効率的に処理する検索拡張生成フレームワークであるUMaTを紹介する。
UMaTは、マルチモーダル統合、長文ビデオ理解、スパース情報検索において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。