論文の概要: Omnivore: A Single Model for Many Visual Modalities
- arxiv url: http://arxiv.org/abs/2201.08377v1
- Date: Thu, 20 Jan 2022 18:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 13:33:28.990454
- Title: Omnivore: A Single Model for Many Visual Modalities
- Title(参考訳): Omnivore: 多くの視覚モダリティのための単一モデル
- Authors: Rohit Girdhar and Mannat Singh and Nikhila Ravi and Laurens van der
Maaten and Armand Joulin and Ishan Misra
- Abstract要約: 以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。
同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
- 参考スコア(独自算出の注目度): 47.94002558594031
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Prior work has studied different visual modalities in isolation and developed
separate architectures for recognition of images, videos, and 3D data. Instead,
in this paper, we propose a single model which excels at classifying images,
videos, and single-view 3D data using exactly the same model parameters. Our
'Omnivore' model leverages the flexibility of transformer-based architectures
and is trained jointly on classification tasks from different modalities.
Omnivore is simple to train, uses off-the-shelf standard datasets, and performs
at-par or better than modality-specific models of the same size. A single
Omnivore model obtains 86.0% on ImageNet, 84.1% on Kinetics, and 67.1% on SUN
RGB-D. After finetuning, our models outperform prior work on a variety of
vision tasks and generalize across modalities. Omnivore's shared visual
representation naturally enables cross-modal recognition without access to
correspondences between modalities. We hope our results motivate researchers to
model visual modalities together.
- Abstract(参考訳): 先行研究は、異なる視覚モードを分離して研究し、画像、ビデオ、および3dデータの認識のための別々のアーキテクチャを開発した。
そこで本稿では,同一のモデルパラメータを用いて,画像,映像,および単視点3dデータの分類に優れた1つのモデルを提案する。
我々の'Omnivore'モデルはトランスフォーマーベースのアーキテクチャの柔軟性を活用し、異なるモダリティから分類タスクを共同で訓練する。
Omnivoreはトレーニングが簡単で、既製の標準データセットを使用し、同じサイズのモダリティ特化モデルよりも高いパフォーマンスを実現している。
単一のomnivoreモデルはimagenetで86.0%、kineticsで84.1%、sun rgb-dで67.1%を得る。
微調整後、我々のモデルは様々な視覚タスクの先行作業より優れ、モダリティを越えて一般化される。
omnivoreの共有視覚表現は、自然にモダリティ間の対応にアクセスせずにクロスモーダル認識を可能にする。
私たちの結果は、視覚モダリティを一緒にモデル化する研究者のモチベーションを期待しています。
関連論文リスト
- SUM: Saliency Unification through Mamba for Visual Attention Modeling [5.274826387442202]
視覚アテンションモデリングは、マーケティング、マルチメディア、ロボット工学といったアプリケーションにおいて重要な役割を果たす。
従来のサリエンシ予測モデル、特にCNNやTransformersをベースとしたモデルは、大規模な注釈付きデータセットを活用することで、顕著な成功を収めている。
本稿では,Mamba と U-Net を併用した,効率の良い長距離依存性モデリング手法であるMamba (SUM) によるSaliency Unificationを提案する。
論文 参考訳(メタデータ) (2024-06-25T05:54:07Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - NViST: In the Wild New View Synthesis from a Single Image with Transformers [8.361847255300846]
単一画像からの効率的なノベルビュー合成のためのトランスフォーマーベースモデルであるNViSTを提案する。
NViSTは、カジュアルにキャプチャされた現実世界のビデオの大規模なデータセットであるMVImgNetでトレーニングされている。
MVImgNetからの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャへの一般化結果を示す。
論文 参考訳(メタデータ) (2023-12-13T23:41:17Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。
Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。
我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文 参考訳(メタデータ) (2023-05-22T17:59:43Z) - OmniMAE: Single Model Masked Pretraining on Images and Videos [40.985481596672265]
マスク付きオートエンコーディングは、画像やビデオ上で単純なVision Transformerをトレーニングするために使用することができる。
我々は、我々の単一のViT-Hugeモデルを、ImageNetで86.6%、挑戦的なSomes-v2ビデオベンチマークで75.5%の精度で微調整できることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:57:01Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition? [36.67937514793215]
クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。
クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
論文 参考訳(メタデータ) (2022-02-18T15:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。