論文の概要: LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant
- arxiv url: http://arxiv.org/abs/2503.03663v2
- Date: Thu, 06 Mar 2025 16:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:25.864458
- Title: LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant
- Title(参考訳): LION-FS: 高速でスローなビデオランゲージ思考をオンラインビデオアシスタントとして提供
- Authors: Wei Li, Bing Hu, Rui Shao, Leyang Shen, Liqiang Nie,
- Abstract要約: また,「Fast & Slow Video-Language Thinker」は,リアルタイム・能動的・時間的・文脈的・正確な応答を実現するオンネバイドアシスト「LION-FS」である。
- 参考スコア(独自算出の注目度): 49.541465732827504
- License:
- Abstract: First-person video assistants are highly anticipated to enhance our daily lives through online video dialogue. However, existing online video assistants often sacrifice assistant efficacy for real-time efficiency by processing low-frame-rate videos with coarse-grained visual features.To overcome the trade-off between efficacy and efficiency, we propose "Fast & Slow Video-Language Thinker" as an onLIne videO assistaNt, LION-FS, achieving real-time, proactive, temporally accurate, and contextually precise responses. LION-FS adopts a two-stage optimization strategy: 1)Fast Path: Routing-Based Response Determination evaluates frame-by-frame whether an immediate response is necessary. To enhance response determination accuracy and handle higher frame-rate inputs efficiently, we employ Token Aggregation Routing to dynamically fuse spatiotemporal features without increasing token numbers, while utilizing Token Dropping Routing to eliminate redundant features. 2)Slow Path: Multi-granularity Keyframe Augmentation optimizes keyframes during response generation. To provide comprehensive and detailed responses beyond atomic actions constrained by training data, fine-grained spatial features and human-environment interaction features are extracted through multi-granular pooling. These features are further integrated into a meticulously designed multimodal Thinking Template to guide more precise response generation. Comprehensive evaluations on online video tasks demonstrate that LION-FS achieves state-of-the-art efficacy and efficiency.
- Abstract(参考訳): 初対人ビデオアシスタントは、オンラインビデオ対話を通じて日々の生活を強化することが期待されている。
しかし,既存のオンラインビデオアシスタントは,低フレームレートの動画を粗い視覚的特徴で処理することで,リアルタイム効率を犠牲にすることが多く,その効果と効率のトレードオフを克服するために,オンラインヴィデオ補助装置として"Fast & Slow Video-Language Thinker"を提案している。
LION-FSは、次の2段階の最適化戦略を採用する: 1) ファストパス: ルーティングベースの応答決定は、即時応答が必要なかどうかをフレーム単位で評価する。
応答判定精度を高め, 高フレームレート入力を効率的に処理するために, トークン数を増やすことなく時空間特徴を動的に融合するToken Aggregation Routingを用いて, 冗長な特徴を除去するToken Dropping Routingを利用する。
2) Slow Path: 応答生成中にキーフレームを最適化するマルチグラニュラリティ・キーフレーム拡張。
訓練データによって拘束される原子行動以外の包括的かつ詳細な応答、微粒な空間特徴及び多粒性プールにより人環境相互作用特徴を抽出する。
これらの機能は、より正確な応答生成をガイドするために、細心の注意を払って設計されたマルチモーダルシンキングテンプレートにさらに統合される。
オンラインビデオタスクに関する総合的な評価は、LION-FSが最先端の有効性と効率を達成することを示す。
関連論文リスト
- Adaptive Video Understanding Agent: Enhancing efficiency with dynamic frame sampling and feedback-driven reasoning [29.89820310679906]
本稿では,長大な映像理解の効率性と有効性を両立させるエージェントベース手法を提案する。
提案手法の重要な側面はクエリ適応型フレームサンプリングであり,LLMの推論能力を利用して,最も関連性の高いフレームのみをリアルタイムに処理する。
提案手法を複数のビデオ理解ベンチマークで評価し,最先端性能の向上だけでなく,サンプリングしたフレーム数を削減して効率の向上を図っている。
論文 参考訳(メタデータ) (2024-10-26T19:01:06Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving [9.900979396513687]
MLLM(Multimodal large language model)は、自律運転システムにおけるシーン理解の促進に顕著な可能性を示している。
1つの大きな制限は、細粒度で長文の視覚情報を取得するのに必要な多数の視覚トークンから生じる。
本稿では,視覚トークンの総数を大幅に削減し,最も有能な情報を保存するためのビデオトークンスペーシフィケーション(VTS)を提案する。
論文 参考訳(メタデータ) (2024-09-16T05:31:01Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Enhanced Spatio-Temporal Interaction Learning for Video Deraining: A
Faster and Better Framework [93.37833982180538]
不要な雨がビデオの可視性を阻害し、ほとんどの屋外ビジョンシステムの堅牢性を低下させるため、ビデオ排水はコンピュータビジョンの重要なタスクです。
拡張時空間相互作用ネットワーク(ESTINet)と呼ばれる新しいエンドツーエンドのデラミニングフレームワークを提案する。
ESTINetは、現在の最先端ビデオの画質とスピードを大幅に向上させる。
論文 参考訳(メタデータ) (2021-03-23T05:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。