Fugu-MT 論文翻訳(概要): Neuro-Symbolic Video Search

論文の概要: Neuro-Symbolic Video Search

arxiv url: http://arxiv.org/abs/2403.11021v1
Date: Sat, 16 Mar 2024 21:40:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 20:36:44.395385
Title: Neuro-Symbolic Video Search
Title（参考訳）: ニューロシンボリックビデオサーチ
Authors: Minkyu Choi, Harsh Goel, Mohammad Omama, Yunhao Yang, Sahil Shah, Sandeep Chinchali,
Abstract要約: 長期的時間的推論は、フレーム検索システムにとって重要なデシダータムである。この失敗の主な理由は、フレーム単位の認識と時間的推論を1つのディープネットワークに織り込むためである。本稿では,個々のフレームの意味的理解に視覚言語モデルを活用するシステムを提案する。
参考スコア（独自算出の注目度）: 3.767558059128794
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The unprecedented surge in video data production in recent years necessitates efficient tools to extract meaningful frames from videos for downstream tasks. Long-term temporal reasoning is a key desideratum for frame retrieval systems. While state-of-the-art foundation models, like VideoLLaMA and ViCLIP, are proficient in short-term semantic understanding, they surprisingly fail at long-term reasoning across frames. A key reason for this failure is that they intertwine per-frame perception and temporal reasoning into a single deep network. Hence, decoupling but co-designing semantic understanding and temporal reasoning is essential for efficient scene identification. We propose a system that leverages vision-language models for semantic understanding of individual frames but effectively reasons about the long-term evolution of events using state machines and temporal logic (TL) formulae that inherently capture memory. Our TL-based reasoning improves the F1 score of complex event identification by 9-15% compared to benchmarks that use GPT4 for reasoning on state-of-the-art self-driving datasets such as Waymo and NuScenes.
Abstract（参考訳）: 近年のビデオデータ生産の急激な増加は、下流のタスクのためにビデオから意味のあるフレームを抽出する効率的なツールを必要としている。長期的時間的推論は、フレーム検索システムにとって重要なデシダータムである。 VideoLLaMAやViCLIPのような最先端の基盤モデルは、短期的な意味理解に熟練しているが、フレーム間の長期的な推論では驚くほど失敗する。この失敗の主な理由は、フレーム単位の認識と時間的推論を1つのディープネットワークに織り込むためである。したがって、効率的なシーン識別には、疎結合だが協調設計のセマンティック理解と時間的推論が不可欠である。本稿では,個々のフレームのセマンティック理解に視覚言語モデルを活用するシステムを提案する。我々のTLベースの推論は、WaymoやNuScenesといった最先端の自動運転データセットの推論にGPT4を使用するベンチマークと比較して、複雑なイベント識別のF1スコアを9～15%改善します。

関連論文リスト

VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
Time Blindness: Why Video-Language Models Can't See What Humans Can? [48.653937503646375]
我々は、ノイズのようなフレームの時間的シーケンスにのみ情報を格納するベンチマークである$bfSpookyBenchを紹介した。人間は98%以上の精度でこれらのシーケンスの形状、テキスト、パターンを認識できるが、最先端の視覚言語モデルは0%の精度を達成する。この性能ギャップは、フレームレベルの空間的特徴に対する過度な信頼と、時間的手がかりから意味を抽出できないという、限界を浮き彫りにする。
論文参考訳（メタデータ） (2025-05-30T17:59:12Z)
Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding [23.022070084937603]
本稿では,視覚意味論理探索のパラダイムの下で選択を再構成する意味論的検索フレームワークを提案する。提案手法は,キーフレーム選択の指標を手動でアノテートしたベンチマーク上で,新たなSOTA性能を確立する。
論文参考訳（メタデータ） (2025-03-17T13:07:34Z)
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning [40.18308199837137]
これらの問題点に対処するために,ビデオS-テンポラル推論(V-STa)ベンチマークを導入する。我々は,ビデオLLMの時空間推論プロセスを実現するためのデータセットを構築した。 14のビデオ-LLMによる実験では、現在のビデオ-LLMと、堅牢で一貫性のある推論の必要性の間に大きなギャップが示されている。
論文参考訳（メタデータ） (2025-03-14T15:21:44Z)
ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文参考訳（メタデータ） (2025-01-24T16:24:15Z)
The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文参考訳（メタデータ） (2025-01-15T03:17:24Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文参考訳（メタデータ） (2024-09-13T17:45:53Z)
HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics [32.117677036812836]
HERMESは、エピソードメモリ蓄積をシミュレートしてアクションシーケンスをキャプチャするモデルである。エピソード・コムプレッサーは、ミクロからセミマクロレベルまでの重要な表現を効率的に集約する。 Semantic ReTRieverは、関連するマクロレベルの情報を保持しながら、特徴次元を劇的に削減する。
論文参考訳（メタデータ） (2024-08-30T17:52:55Z)
Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文参考訳（メタデータ） (2024-06-16T12:58:31Z)
Efficient Long-Short Temporal Attention Network for Unsupervised Video Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文参考訳（メタデータ） (2023-09-21T01:09:46Z)
Let's Think Frame by Frame with VIP: A Video Infilling and Prediction Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。 VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文参考訳（メタデータ） (2023-05-23T10:26:42Z)
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文参考訳（メタデータ） (2023-03-08T01:29:55Z)
Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。 HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。 3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文参考訳（メタデータ） (2023-03-02T08:00:22Z)
Distortion-Aware Network Pruning and Feature Reuse for Real-time Video Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文参考訳（メタデータ） (2022-06-20T07:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。