Fugu-MT 論文翻訳(概要): ViSpeak: Visual Instruction Feedback in Streaming Videos

論文の概要: ViSpeak: Visual Instruction Feedback in Streaming Videos

arxiv url: http://arxiv.org/abs/2503.12769v1
Date: Mon, 17 Mar 2025 03:05:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:58.086534
Title: ViSpeak: Visual Instruction Feedback in Streaming Videos
Title（参考訳）: ViSpeak: ビデオストリーミングにおけるビジュアルインストラクションフィードバック
Authors: Shenghao Fu, Qize Yang, Yuan-Ming Li, Yi-Xing Peng, Kun-Yu Lin, Xihan Wei, Jian-Fang Hu, Xiaohua Xie, Wei-Shi Zheng,
Abstract要約: 本稿では,視覚的インストラクションフィードバック(Visual Instruction Feedback)という新しいタスクを提案する。我々は,様々なストリーミングビデオ理解ベンチマークにおいて,GPT-4oレベルの性能を持つSOTAストリーミングビデオ理解LMMであるViSpeakモデルを提案する。
参考スコア（独自算出の注目度）: 50.99067964073338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in Large Multi-modal Models (LMMs) are primarily focused on offline video understanding. Instead, streaming video understanding poses great challenges to recent models due to its time-sensitive, omni-modal and interactive characteristics. In this work, we aim to extend the streaming video understanding from a new perspective and propose a novel task named Visual Instruction Feedback in which models should be aware of visual contents and learn to extract instructions from them. For example, when users wave their hands to agents, agents should recognize the gesture and start conversations with welcome information. Thus, following instructions in visual modality greatly enhances user-agent interactions. To facilitate research, we define seven key subtasks highly relevant to visual modality and collect the ViSpeak-Instruct dataset for training and the ViSpeak-Bench for evaluation. Further, we propose the ViSpeak model, which is a SOTA streaming video understanding LMM with GPT-4o-level performance on various streaming video understanding benchmarks. After finetuning on our ViSpeak-Instruct dataset, ViSpeak is equipped with basic visual instruction feedback ability, serving as a solid baseline for future research.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)の最近の進歩は、主にオフラインビデオ理解に焦点を当てている。代わりに、ストリーミングビデオの理解は、その時間に敏感で、オムニ・モーダルでインタラクティブな特徴のために、最近のモデルにとって大きな課題となる。本研究では,新たな視点からストリーミング映像理解を拡張し,視覚的内容を認識してそこから指示を抽出する新しいタスクであるVisual Instruction Feedbackを提案する。例えば、ユーザーがエージェントに手を振るとき、エージェントはジェスチャーを認識し、歓迎された情報で会話を開始する必要がある。このように、視覚的モダリティの指示に従うことで、ユーザとエージェントのインタラクションが大幅に向上する。研究を容易にするために、視覚的モダリティに高い関連性を持つ7つのキーサブタスクを定義し、トレーニング用ViSpeak-Instructデータセットと評価用ViSpeak-Benchを収集する。さらに,様々なストリーミングビデオ理解ベンチマークにおいて,GPT-4oレベルの性能を持つSOTAストリーミングビデオ理解LMMであるViSpeakモデルを提案する。 ViSpeak-Instructデータセットを微調整した後、ViSpeakは基本的な視覚的指示フィードバック機能を備え、将来の研究の確かなベースラインとして機能する。

関連論文リスト

ViTCoT: Video-Text Interleaved Chain-of-Thought for Boosting Video Understanding in Large Language Models [50.42183477287337]
ビデオ理解は、高いレベルの認知的推論で低レベルの視覚信号をブリッジする上で重要な役割を担っている。ビデオテキストインターリーブドCoT(ViTCoT)の新たな推論パラダイムについて紹介する。従来のテキストのみのCoTパラダイムと比較して,ViTCoTは性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-07-14T03:21:13Z)
PVChat: Personalized Video Chat with One-Shot Learning [15.328085576102106]
PVChatは単発の学習フレームワークで、被験者ごとに単一のビデオから回答できる。提案手法は、合成強化ビデオQAデータセット上で、Mixture-of-Heads(MoH)拡張ViLLMを最適化する。医療シナリオ,テレビシリーズ,アニメ,実世界の映像を対象とした多様なデータセットを用いてPVChatを評価した。
論文参考訳（メタデータ） (2025-03-21T11:50:06Z)
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文参考訳（メタデータ） (2025-03-05T18:44:48Z)
PreMind: Multi-Agent Video Understanding for Advanced Indexing of Presentation-style Videos [22.39414772037232]
PreMindは講義ビデオの理解とインデクシングのための新しいマルチエージェントマルチモーダルフレームワークである。スライドの視覚的内容の抽出、音声の物語の書き起こし、これらの視覚的内容と音声的内容の統合化という3つの重要なステップを通じて、マルチモーダルインデックスを生成する。 VLMを用いた音声書き起こし誤りの検出・訂正や、視覚分析における動的反復自己回帰のための批判エージェントの利用などである。
論文参考訳（メタデータ） (2025-02-28T20:17:48Z)
3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation [13.622700558266658]
本稿では,凍結事前学習型視覚言語モデル(VLM)をバックボーンとして用いることを提案する。まず、フリーズした畳み込みCLIPバックボーンを使用して、機能に整合したビジョンとテキスト機能を生成し、ドメインギャップの問題を軽減する。第二に、マルチモーダル情報の利用を高めるために、パイプラインによりクロスモーダルな特徴融合を追加します。
論文参考訳（メタデータ） (2024-06-07T11:15:03Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties [13.938281516499119]
textbfEmergent textbfIn-context textbfLearning on textbfVideos (eilev)を実装する。我々の結果、分析、およびアイレフ学習モデルは、ビデオやテキスト上での文脈内学習の出現に関する多くの洞察を得られる。
論文参考訳（メタデータ） (2023-11-28T18:53:06Z)
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。 InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文参考訳（メタデータ） (2023-10-16T17:05:56Z)
Valley: Video Assistant with Large Language model Enhanced abilitY [41.79449203718827]
大規模言語モデル強化型ビデオアシスタントであるValleyを紹介した。映像理解と指示追従能力でバレーを強化するため,映像指導データセットを構築した。タスク指向会話データの構築を容易にするためにChatGPTを用いる。
論文参考訳（メタデータ） (2023-06-12T16:11:10Z)
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。ビデオに関する詳細な会話を理解し、生成することができる。我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文参考訳（メタデータ） (2023-06-08T17:59:56Z)
End-to-End Multimodal Representation Learning for Video Dialog [5.661732643450332]
本研究では,3D-CNNネットワークとトランスフォーマーベースネットワークを1つのビジュアルエンコーダに組み合わせた新しいフレームワークを提案する。ビジュアルエンコーダは、テキストやオーディオなどの他の入力モダリティと共同で訓練される。 AVSDタスクの実験は、生成タスクと検索タスクの両方において、ベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2022-10-26T06:50:07Z)
Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。 MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文参考訳（メタデータ） (2022-07-15T17:59:11Z)
Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-12-10T14:47:02Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。