論文の概要: Looking Beyond the Obvious: A Survey on Abstract Concept Recognition for Video Understanding
- arxiv url: http://arxiv.org/abs/2508.20765v1
- Date: Thu, 28 Aug 2025 13:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.41726
- Title: Looking Beyond the Obvious: A Survey on Abstract Concept Recognition for Video Understanding
- Title(参考訳): ビデオ理解のための抽象概念認識に関する調査
- Authors: Gowreesh Mago, Pascal Mettes, Stevan Rudinac,
- Abstract要約: 抽象概念認識は、ビデオ理解において重要なオープンチャレンジを形成する。
基礎モデルの最近の進歩は、ビデオの抽象的な概念理解に対処するための理想的な設定である。
ビデオコンテンツにおける抽象概念を理解するために使用される様々なタスクやデータセットについて研究する。
- 参考スコア(独自算出の注目度): 22.83154031059576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automatic understanding of video content is advancing rapidly. Empowered by deeper neural networks and large datasets, machines are increasingly capable of understanding what is concretely visible in video frames, whether it be objects, actions, events, or scenes. In comparison, humans retain a unique ability to also look beyond concrete entities and recognize abstract concepts like justice, freedom, and togetherness. Abstract concept recognition forms a crucial open challenge in video understanding, where reasoning on multiple semantic levels based on contextual information is key. In this paper, we argue that the recent advances in foundation models make for an ideal setting to address abstract concept understanding in videos. Automated understanding of high-level abstract concepts is imperative as it enables models to be more aligned with human reasoning and values. In this survey, we study different tasks and datasets used to understand abstract concepts in video content. We observe that, periodically and over a long period, researchers have attempted to solve these tasks, making the best use of the tools available at their disposal. We advocate that drawing on decades of community experience will help us shed light on this important open grand challenge and avoid ``re-inventing the wheel'' as we start revisiting it in the era of multi-modal foundation models.
- Abstract(参考訳): ビデオコンテンツの自動理解は急速に進んでいる。
より深いニューラルネットワークと大規模なデータセットを駆使したマシンは、オブジェクト、アクション、イベント、シーンなど、ビデオフレームで具体的に見えるものを理解する能力がますます高まっている。
対照的に、人間は具体的な実体を超越し、正義、自由、共同性といった抽象概念を認識できるユニークな能力を持っている。
抽象概念認識は、文脈情報に基づく複数の意味レベルに基づく推論が鍵となる、ビデオ理解において重要なオープンチャレンジを形成する。
本稿では,近年のファンデーションモデルの発展が,ビデオの抽象的概念理解に対処するための理想的な設定となっていることを論じる。
高レベルの抽象概念の自動理解は、モデルが人間の推論や価値とより整合することを可能にするため、必須である。
本研究では,ビデオコンテンツにおける抽象概念を理解するために使用されるさまざまなタスクやデータセットについて検討する。
我々は、定期的に、そして長い期間にわたって、研究者がこれらの課題を解決しようとしてきたことを観察し、それらのツールの最適な利用を可能にした。
何十年にもわたってコミュニティ経験を積み重ねることによって、この重要なオープングランドチャレンジに光を当て、マルチモーダル基盤モデルの時代に再考し始めるときの‘車輪の再発明’を避けることができる、と私たちは主張しています。
関連論文リスト
- Infinite Video Understanding [50.78256932424239]
Infinite Video Understandingをブルースキー研究の目的とするフレーミングは、マルチメディアにとって重要な北の星となると我々は主張する。
我々は、この変革能力を達成するための主要な課題と研究の方向性を概説する。
論文 参考訳(メタデータ) (2025-07-11T23:07:04Z) - Exploring Explainability in Video Action Recognition [5.7782784592048575]
ビデオ行動認識と画像分類はコンピュータビジョンの基本課題である。
Video-TCAVは、ビデオ行動認識モデルの意思決定プロセスにおいて、特定の概念の重要性を定量化することを目的としている。
本稿では,ビデオ-TCAVテストにおいて,映像行動認識に関連する空間的・時間的概念を生成するための機械支援手法を提案する。
論文 参考訳(メタデータ) (2024-04-13T19:34:14Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文 参考訳(メタデータ) (2022-06-30T15:20:36Z) - Automatic Concept Extraction for Concept Bottleneck-based Video
Classification [58.11884357803544]
本稿では,概念に基づくビデオ分類に必要かつ十分な概念抽象セットを厳格に構成する概念発見抽出モジュールを提案する。
提案手法は,自然言語における概念概念の抽象概念を応用し,複雑なタスクに概念ボトルネック法を一般化する。
論文 参考訳(メタデータ) (2022-06-21T06:22:35Z) - Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-12T02:37:20Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。