Fugu-MT 論文翻訳(概要): Video Understanding: From Geometry and Semantics to Unified Models

論文の概要: Video Understanding: From Geometry and Semantics to Unified Models

arxiv url: http://arxiv.org/abs/2603.17840v1
Date: Wed, 18 Mar 2026 15:31:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.797895
Title: Video Understanding: From Geometry and Semantics to Unified Models
Title（参考訳）: ビデオ理解:幾何学と意味論から統一モデルへ
Authors: Zhaochong An, Zirui Li, Mingqiao Ye, Feng Qiao, Jiaang Li, Zongwei Wu, Vishal Thengane, Chengzu Li, Lei Li, Luc Van Gool, Guolei Sun, Serge Belongie,
Abstract要約: ビデオ理解は、モデルがダイナミックなビジュアルワールドを知覚し、相互作用できるようにすることを目的としている。画像理解とは対照的に、ビデオ理解は本質的にモデリング力学と進化する視覚的コンテキストを必要とする。
参考スコア（独自算出の注目度）: 60.523344000396975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video understanding aims to enable models to perceive, reason about, and interact with the dynamic visual world. In contrast to image understanding, video understanding inherently requires modeling temporal dynamics and evolving visual context, placing stronger demands on spatiotemporal reasoning and making it a foundational problem in computer vision. In this survey, we present a structured overview of video understanding by organizing the literature into three complementary perspectives: low-level video geometry understanding, high-level semantic understanding, and unified video understanding models. We further highlight a broader shift from isolated, task-specific pipelines toward unified modeling paradigms that can be adapted to diverse downstream objectives, enabling a more systematic view of recent progress. By consolidating these perspectives, this survey provides a coherent map of the evolving video understanding landscape, summarizes key modeling trends and design principles, and outlines open challenges toward building robust, scalable, and unified video foundation models.
Abstract（参考訳）: ビデオ理解は、モデルが動的視覚世界を理解し、推論し、相互作用できるようにすることを目的としている。画像理解とは対照的に、ビデオ理解には時間的ダイナミクスをモデル化し、視覚的コンテキストを進化させる必要があり、時空間的推論に強い要求を課し、コンピュータビジョンにおける基礎的な問題となる。本稿では,低レベルの映像幾何学的理解,高レベルの意味的理解,統合された映像理解モデルという,3つの相補的な視点に文献を整理することにより,映像理解の構造化の概要を述べる。さらに、分離されたタスク固有のパイプラインから、さまざまな下流目標に適応可能な統一モデリングパラダイムへの、より広範なシフトを強調します。これらの視点を統合することで、この調査は進化するビデオ理解の展望の一貫性のあるマップを提供し、主要なモデリングトレンドと設計原則を要約し、堅牢でスケーラブルで統一されたビデオ基盤モデルを構築するためのオープンな課題を概説する。

関連論文リスト

Video Understanding: Through A Temporal Lens [5.153774021264937]
この論文は、映像要素間の時間的関係を利用して映像理解を促進する方法について、中心的な疑問を提起する。本研究は,(1)大規模視覚言語モデルを用いた自動アノテーションフレームワークと,(2)低データ状態における時間的ダイナミクスを捉えるためのパラメータ効率のよい微調整戦略,(3)高効率な長期ビデオモデリングのためのステートスペースレイヤの統合,(4)動きと映像の微妙な関係を明示的にモデル化する新しいコントラスト学習フレームワークを提示する。
論文参考訳（メタデータ） (2026-01-31T12:01:09Z)
From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文参考訳（メタデータ） (2025-09-29T18:25:40Z)
Video Understanding by Design: How Datasets Shape Architectures and Insights [47.846604113207206]
ビデオ理解は、ますます複雑なデータセットと強力なアーキテクチャによって、急速に進歩している。この調査は、モデルがエンコードすべき帰納的バイアスを課す動きの複雑さ、時間的スパン、階層的構成、マルチモーダル豊かさを示す、データセット駆動の視点を採用した初めてのものだ。
論文参考訳（メタデータ） (2025-09-11T05:06:30Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Learning Structured Representations of Visual Scenes [1.6244541005112747]
本研究では,機械が個々の画像や映像の内容と視覚的関係を構造化表現として記述する方法について検討する。具体的には,静的画像設定と映像設定の両方において,視覚シーンの構造的表現を効果的に構築し,学習する方法について検討する。
論文参考訳（メタデータ） (2022-07-09T05:40:08Z)
Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文参考訳（メタデータ） (2021-03-29T14:37:35Z)
Video Action Understanding [6.04698204230499]
本チュートリアルでは,教師付きビデオ行動理解における基本的話題,基本概念,特筆すべき例を紹介し,体系化する。具体的には、アクション問題の分類を明らかにし、ビデオデータセットのカタログ化とハイライトを行い、一般的なビデオデータ作成方法を記述し、提案したソリューションをベースライン化するためにドメイン固有のメトリクスを形式化する。
論文参考訳（メタデータ） (2020-10-13T19:29:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。