Fugu-MT 論文翻訳(概要): Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

論文の概要: Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

arxiv url: http://arxiv.org/abs/2501.03218v1
Date: Mon, 06 Jan 2025 18:55:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:52.388031
Title: Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
Title（参考訳）: Dispider: 遠方知覚, 決定, 反応によるアクティブリアルタイムインタラクションによるビデオLLMの実現
Authors: Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang,
Abstract要約: 本稿では,知覚,決定,反応を両立させるシステムであるDispiderを紹介する。実験により、Dispiderは従来のビデオQAタスクにおいて高いパフォーマンスを維持しているだけでなく、ストリーミングシナリオ応答における従来のオンラインモデルを大幅に上回っていることがわかった。
参考スコア（独自算出の注目度）: 81.34648970317383
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Active Real-time interaction with video LLMs introduces a new paradigm for human-computer interaction, where the model not only understands user intent but also responds while continuously processing streaming video on the fly. Unlike offline video LLMs, which analyze the entire video before answering questions, active real-time interaction requires three capabilities: 1) Perception: real-time video monitoring and interaction capturing. 2) Decision: raising proactive interaction in proper situations, 3) Reaction: continuous interaction with users. However, inherent conflicts exist among the desired capabilities. The Decision and Reaction require a contrary Perception scale and grain, and the autoregressive decoding blocks the real-time Perception and Decision during the Reaction. To unify the conflicted capabilities within a harmonious system, we present Dispider, a system that disentangles Perception, Decision, and Reaction. Dispider features a lightweight proactive streaming video processing module that tracks the video stream and identifies optimal moments for interaction. Once the interaction is triggered, an asynchronous interaction module provides detailed responses, while the processing module continues to monitor the video in the meantime. Our disentangled and asynchronous design ensures timely, contextually accurate, and computationally efficient responses, making Dispider ideal for active real-time interaction for long-duration video streams. Experiments show that Dispider not only maintains strong performance in conventional video QA tasks, but also significantly surpasses previous online models in streaming scenario responses, thereby validating the effectiveness of our architecture. The code and model are released at \url{https://github.com/Mark12Ding/Dispider}.
Abstract（参考訳）: ビデオLLMとのアクティブリアルタイムインタラクションは、人間のコンピュータインタラクションのための新しいパラダイムを導入し、モデルがユーザの意図を理解するだけでなく、ストリーミングビデオをオンザフライで継続的に処理しながら応答する。質問に答える前にビデオ全体を分析するオフラインビデオLLMとは異なり、アクティブなリアルタイムインタラクションには3つの機能が必要です。 1)知覚:リアルタイムビデオ監視とインタラクションキャプチャ。 2【決定】適切な状況下での積極的相互作用を高めること。 3)反応: ユーザとの継続的なインタラクション。しかし、所望の能力には固有の対立が存在する。決定と反応は反対の知覚スケールと粒を必要とするが、自己回帰復号は反応中のリアルタイム知覚と決定をブロックする。調和したシステム内の対立する能力を統一するために、知覚、決定、反応を混乱させるシステムであるDispiderを提案する。 Dispiderは、ビデオストリームを追跡し、対話のための最適な瞬間を特定する、軽量なプロアクティブなストリーミングビデオ処理モジュールを備えている。インタラクションが起動されると、非同期のインタラクションモジュールは詳細なレスポンスを提供し、処理モジュールは、その間にビデオを監視します。我々の非絡み合いで非同期な設計は、時間的に、文脈的に正確で、計算的に効率的な応答を保証し、Dispiderは長時間のビデオストリームのためのアクティブなリアルタイムインタラクションに理想的である。実験により、Dispiderは従来のビデオQAタスクにおいて高いパフォーマンスを維持しているだけでなく、ストリーミングシナリオ応答における従来のオンラインモデルを大幅に上回り、アーキテクチャの有効性を検証していることがわかった。コードとモデルは \url{https://github.com/Mark12Ding/Dispider} でリリースされる。

関連論文リスト

StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition [19.54521322177521]
超FPSストリーミングビデオ処理を実現するビデオLLMフレームワークStreamMind(A100では100fps)を紹介する。我々は「イベント付きLLM呼び出し」という新たな認知認知時間間パラダイムを提案する。 Ego4D と SoccerNet ストリーミングタスクの実験は、標準的なオフラインベンチマークと同様に、モデル能力とリアルタイム効率の両方における最先端のパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-03-08T13:44:38Z)
Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation [82.73098356401725]
本稿では,過去観測された動きに基づいて次のキャラクターのポーズを生成するためのオンライン反応ポリシーであるReady-to-Reactを提案する。各キャラクターは独自の反応ポリシーを「脳」として持っており、実際の人間のようにストリーミングで対話することができる。われわれのアプローチはスパース信号で制御でき、VRや他のオンラインインタラクティブ環境にも適している。
論文参考訳（メタデータ） (2025-02-27T18:40:30Z)
Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文参考訳（メタデータ） (2025-01-23T08:33:10Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文参考訳（メタデータ） (2024-12-11T18:59:54Z)
InterFormer: Real-time Interactive Image Segmentation [80.45763765116175]
インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
論文参考訳（メタデータ） (2023-04-06T08:57:00Z)
AEI: Actors-Environment Interaction with Adaptive Attention for Temporal Action Proposals Generation [15.360689782405057]
本研究では,時間的行動提案生成のための映像表現を改善するために,アクタ環境インタラクション(AEI)ネットワークを提案する。 AEIは2つのモジュール、すなわち知覚に基づく視覚表現(PVR)と境界マッチングモジュール(BMM)を含んでいる。
論文参考訳（メタデータ） (2021-10-21T20:43:42Z)
Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文参考訳（メタデータ） (2020-09-22T10:25:41Z)
Spatio-Temporal Action Detection with Multi-Object Interaction [127.85524354900494]
本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
論文参考訳（メタデータ） (2020-04-01T00:54:56Z)
Collaborative Motion Prediction via Neural Motion Message Passing [37.72454920355321]
我々は,アクター間の対話を明示的にモデル化し,アクター間の対話の表現を学習するために,ニューラルモーションメッセージパッシング(NMMP)を提案する。提案したNMMPに基づいて,歩行者設定と共同歩行者設定と車両設定の2つの設定に対して,動作予測システムを設計する。どちらのシステムも、既存のベンチマークで過去の最先端の手法より優れている。
論文参考訳（メタデータ） (2020-03-14T10:12:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。