Fugu-MT 論文翻訳(概要): We Have So Much In Common: Modeling Semantic Relational Set Abstractions in Videos

論文の概要: We Have So Much In Common: Modeling Semantic Relational Set Abstractions in Videos

arxiv url: http://arxiv.org/abs/2008.05596v1
Date: Wed, 12 Aug 2020 22:57:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-31 05:40:03.149730
Title: We Have So Much In Common: Modeling Semantic Relational Set Abstractions in Videos
Title（参考訳）: ビデオにおける意味的関係集合の抽象化のモデリング
Authors: Alex Andonian, Camilo Fosco, Mathew Monfort, Allen Lee, Rogerio Feris, Carl Vondrick, and Aude Oliva
Abstract要約: 本稿では,人間の学習にインスパイアされたビデオのセマンティック・リレーショナル・セットの抽象化を学習するためのアプローチを提案する。視覚的特徴と自然言語の監督を組み合わせることで、一連のビデオにまたがる類似点のハイレベルな表現を生成する。
参考スコア（独自算出の注目度）: 29.483605238401577
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Identifying common patterns among events is a key ability in human and machine perception, as it underlies intelligent decision making. We propose an approach for learning semantic relational set abstractions on videos, inspired by human learning. We combine visual features with natural language supervision to generate high-level representations of similarities across a set of videos. This allows our model to perform cognitive tasks such as set abstraction (which general concept is in common among a set of videos?), set completion (which new video goes well with the set?), and odd one out detection (which video does not belong to the set?). Experiments on two video benchmarks, Kinetics and Multi-Moments in Time, show that robust and versatile representations emerge when learning to recognize commonalities among sets. We compare our model to several baseline algorithms and show that significant improvements result from explicitly learning relational abstractions with semantic supervision.
Abstract（参考訳）: イベント間の共通パターンの特定は、知的な意思決定の基礎となる、人間と機械の知覚において重要な能力である。本稿では,人間の学習に触発されたビデオ上の意味関係集合の抽象化を学ぶためのアプローチを提案する。視覚特徴と自然言語監督を組み合わせることで,映像群全体の類似度を高レベルに表現する。これにより、我々のモデルは、セット抽象化(ビデオのセットに共通する一般的な概念?)、セット完了(新しいビデオはセットと相性がいいのか?)、奇妙な1つの検出(どのビデオはセットに属さないのか? 2つのビデオベンチマーク、kineticsとmulti-moments in timeの実験では、集合間の共通性を認識するために学習すると、頑健で多彩な表現が現れる。モデルといくつかのベースラインアルゴリズムを比較し,意味的監督を伴う関係抽象化を明示的に学習した結果,大幅な改善が得られたことを示す。

関連論文リスト

CrossVideoMAE: Self-Supervised Image-Video Representation Learning with Masked Autoencoders [6.159948396712944]
CrossVideoMAEはビデオレベルとフレームレベルのリッチテンポラル表現とセマンティック属性の両方を学ぶ。提案手法は,ビデオからの時間的情報とサンプルフレームからの空間的情報を統合する。これは、ビデオおよびフレーム画像のモダリティから、リッチでラベルなしなガイド信号の自己教師型取得に不可欠である。
論文参考訳（メタデータ） (2025-02-08T06:15:39Z)
Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文参考訳（メタデータ） (2025-01-11T08:04:39Z)
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
VELOCITI: Can Video-Language Models Bind Semantic Concepts through Time? [19.313541287648473]
VELOCITIは、複雑な映像クリップ上に構築された新しいベンチマークで、ビデオ言語モデルにおける知覚とバインディングをテストする。認識に基づくテストでは、類似のエンティティを共有するビデオキャプションペアを識別する必要があります。私たちのバインディングテストでは、同じビデオに現れる異なるがもっともらしいエンティティを無視しながら、正しいエンティティを所定の状況に関連付けるモデルが必要です。
論文参考訳（メタデータ） (2024-06-16T10:42:21Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文参考訳（メタデータ） (2022-06-18T00:26:52Z)
Learning from Untrimmed Videos: Self-Supervised Video Representation Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。 HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文参考訳（メタデータ） (2022-04-06T18:04:54Z)
CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文参考訳（メタデータ） (2021-04-30T05:46:02Z)
Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文参考訳（メタデータ） (2021-04-12T02:37:20Z)
Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-04-01T16:48:53Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)
Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文参考訳（メタデータ） (2020-10-24T19:46:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。