論文の概要: Video Understanding by Design: How Datasets Shape Architectures and Insights
- arxiv url: http://arxiv.org/abs/2509.09151v1
- Date: Thu, 11 Sep 2025 05:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.231601
- Title: Video Understanding by Design: How Datasets Shape Architectures and Insights
- Title(参考訳): 設計によるビデオ理解: データセットの形状と洞察
- Authors: Lei Wang, Piotr Koniusz, Yongsheng Gao,
- Abstract要約: ビデオ理解は、ますます複雑なデータセットと強力なアーキテクチャによって、急速に進歩している。
この調査は、モデルがエンコードすべき帰納的バイアスを課す動きの複雑さ、時間的スパン、階層的構成、マルチモーダル豊かさを示す、データセット駆動の視点を採用した初めてのものだ。
- 参考スコア(独自算出の注目度): 47.846604113207206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video understanding has advanced rapidly, fueled by increasingly complex datasets and powerful architectures. Yet existing surveys largely classify models by task or family, overlooking the structural pressures through which datasets guide architectural evolution. This survey is the first to adopt a dataset-driven perspective, showing how motion complexity, temporal span, hierarchical composition, and multimodal richness impose inductive biases that models should encode. We reinterpret milestones, from two-stream and 3D CNNs to sequential, transformer, and multimodal foundation models, as concrete responses to these dataset-driven pressures. Building on this synthesis, we offer practical guidance for aligning model design with dataset invariances while balancing scalability and task demands. By unifying datasets, inductive biases, and architectures into a coherent framework, this survey provides both a comprehensive retrospective and a prescriptive roadmap for advancing general-purpose video understanding.
- Abstract(参考訳): ビデオ理解は、ますます複雑なデータセットと強力なアーキテクチャによって、急速に進歩している。
しかし、既存の調査は、データセットがアーキテクチャの進化を導く構造的な圧力を見越して、タスクまたはファミリーによってモデルを大半を分類している。
この調査は、モデルがエンコードすべき帰納的バイアスを課す動きの複雑さ、時間的スパン、階層的構成、マルチモーダル豊かさを示す、データセット駆動の視点を採用した初めてのものだ。
これらのデータセット駆動型圧力に対する具体的な応答として、2ストリームCNNからシーケンシャル、トランスフォーマー、マルチモーダルファンデーションモデルへのマイルストーンを再解釈する。
この合成に基づいて、スケーラビリティとタスク要求のバランスを保ちながら、データセットの不変性とモデル設計を整合させる実用的なガイダンスを提供する。
データセット、帰納的バイアス、アーキテクチャをコヒーレントなフレームワークに統合することにより、この調査は、汎用的なビデオ理解を促進するための包括的なふりかえりと規範的なロードマップの両方を提供する。
関連論文リスト
- Scaling Towards the Information Boundary of Instruction Set: InfinityInstruct-Subject Technical Report [11.70656700216213]
高品質な命令データセットの構築は、モデル性能と一般化可能性の向上に不可欠である。
本稿では,階層的ラベリングシステム,情報的種選択アルゴリズム,モデル欠損診断を統合した系統的命令データ合成フレームワークを提案する。
本稿では,150万の命令を含む高品質なデータセットであるInfinityInstruct-Subjectを構築した。
論文 参考訳(メタデータ) (2025-07-09T15:59:02Z) - SimVecVis: A Dataset for Enhancing MLLMs in Visualization Understanding [10.168582728627042]
現在の大言語モデル(MLLM)は、データと視覚のマッピングをデコードし、構造化された情報を抽出できないため、可視化の理解に苦慮している。
我々は,マークタイプ,位置,サイズなどのチャート要素を符号化する,新しい簡易なベクトル形式であるSimVecを提案する。
我々は、可視化理解におけるMLLMの性能を高めるために、新しい可視化データセット、SimVecVisを構築した。
論文 参考訳(メタデータ) (2025-06-26T14:35:59Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。
本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。
複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文 参考訳(メタデータ) (2025-05-26T18:55:14Z) - GridMind: A Multi-Agent NLP Framework for Unified, Cross-Modal NFL Data Insights [0.0]
本稿では,Retrieval-Augmented Generation (RAG) と大規模言語モデル (LLM) を通じて構造化,半構造化,非構造化データを統一するフレームワークであるGridMindを紹介する。
このアプローチはマルチモーダル表現学習の進化する分野と一致する。
論文 参考訳(メタデータ) (2025-03-24T18:33:36Z) - Investigating Public Fine-Tuning Datasets: A Complex Review of Current Practices from a Construction Perspective [2.12587313410587]
本稿では、データ構築の観点から、現在の公開微調整データセットをレビューする。
このレビューでは、進化と分類の2つの側面から、パブリックな微調整データセットの概要を述べる。
論文 参考訳(メタデータ) (2024-07-11T13:11:16Z) - Defining Neural Network Architecture through Polytope Structures of Dataset [53.512432492636236]
本稿では, ニューラルネットワーク幅の上下境界を定義し, 問題となるデータセットのポリトープ構造から情報を得る。
本研究では,データセットのポリトープ構造を学習したニューラルネットワークから推定できる逆条件を探索するアルゴリズムを開発した。
MNIST、Fashion-MNIST、CIFAR10といった一般的なデータセットは、顔の少ない2つ以上のポリトップを用いて効率的にカプセル化できることが確立されている。
論文 参考訳(メタデータ) (2024-02-04T08:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。