論文の概要: We Have So Much In Common: Modeling Semantic Relational Set Abstractions
in Videos
- arxiv url: http://arxiv.org/abs/2008.05596v1
- Date: Wed, 12 Aug 2020 22:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:40:03.149730
- Title: We Have So Much In Common: Modeling Semantic Relational Set Abstractions
in Videos
- Title(参考訳): ビデオにおける意味的関係集合の抽象化のモデリング
- Authors: Alex Andonian, Camilo Fosco, Mathew Monfort, Allen Lee, Rogerio Feris,
Carl Vondrick, and Aude Oliva
- Abstract要約: 本稿では,人間の学習にインスパイアされたビデオのセマンティック・リレーショナル・セットの抽象化を学習するためのアプローチを提案する。
視覚的特徴と自然言語の監督を組み合わせることで、一連のビデオにまたがる類似点のハイレベルな表現を生成する。
- 参考スコア(独自算出の注目度): 29.483605238401577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying common patterns among events is a key ability in human and
machine perception, as it underlies intelligent decision making. We propose an
approach for learning semantic relational set abstractions on videos, inspired
by human learning. We combine visual features with natural language supervision
to generate high-level representations of similarities across a set of videos.
This allows our model to perform cognitive tasks such as set abstraction (which
general concept is in common among a set of videos?), set completion (which new
video goes well with the set?), and odd one out detection (which video does not
belong to the set?). Experiments on two video benchmarks, Kinetics and
Multi-Moments in Time, show that robust and versatile representations emerge
when learning to recognize commonalities among sets. We compare our model to
several baseline algorithms and show that significant improvements result from
explicitly learning relational abstractions with semantic supervision.
- Abstract(参考訳): イベント間の共通パターンの特定は、知的な意思決定の基礎となる、人間と機械の知覚において重要な能力である。
本稿では,人間の学習に触発されたビデオ上の意味関係集合の抽象化を学ぶためのアプローチを提案する。
視覚特徴と自然言語監督を組み合わせることで,映像群全体の類似度を高レベルに表現する。
これにより、我々のモデルは、セット抽象化(ビデオのセットに共通する一般的な概念?)、セット完了(新しいビデオはセットと相性がいいのか?)、奇妙な1つの検出(どのビデオはセットに属さないのか?
2つのビデオベンチマーク、kineticsとmulti-moments in timeの実験では、集合間の共通性を認識するために学習すると、頑健で多彩な表現が現れる。
モデルといくつかのベースラインアルゴリズムを比較し,意味的監督を伴う関係抽象化を明示的に学習した結果,大幅な改善が得られたことを示す。
関連論文リスト
- CrossVideoMAE: Self-Supervised Image-Video Representation Learning with Masked Autoencoders [6.159948396712944]
CrossVideoMAEはビデオレベルとフレームレベルのリッチテンポラル表現とセマンティック属性の両方を学ぶ。
提案手法は,ビデオからの時間的情報とサンプルフレームからの空間的情報を統合する。
これは、ビデオおよびフレーム画像のモダリティから、リッチでラベルなしなガイド信号の自己教師型取得に不可欠である。
論文 参考訳(メタデータ) (2025-02-08T06:15:39Z) - Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。
我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文 参考訳(メタデータ) (2025-01-11T08:04:39Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - VELOCITI: Can Video-Language Models Bind Semantic Concepts through Time? [19.313541287648473]
VELOCITIは、複雑な映像クリップ上に構築された新しいベンチマークで、ビデオ言語モデルにおける知覚とバインディングをテストする。
認識に基づくテストでは、類似のエンティティを共有するビデオキャプションペアを識別する必要があります。
私たちのバインディングテストでは、同じビデオに現れる異なるがもっともらしいエンティティを無視しながら、正しいエンティティを所定の状況に関連付けるモデルが必要です。
論文 参考訳(メタデータ) (2024-06-16T10:42:21Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。