論文の概要: Perception Encoder: The best visual embeddings are not at the output of the network
- arxiv url: http://arxiv.org/abs/2504.13181v2
- Date: Mon, 28 Apr 2025 18:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.581378
- Title: Perception Encoder: The best visual embeddings are not at the output of the network
- Title(参考訳): 知覚エンコーダ: 最高の視覚埋め込みはネットワークの出力にはない
- Authors: Daniel Bolya, Po-Yao Huang, Peize Sun, Jang Hyun Cho, Andrea Madotto, Chen Wei, Tengyu Ma, Jiale Zhi, Jathushan Rajasegaran, Hanoona Rasheed, Junke Wang, Marco Monteiro, Hu Xu, Shiyu Dong, Nikhila Ravi, Daniel Li, Piotr Dollár, Christoph Feichtenhofer,
- Abstract要約: 本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
- 参考スコア(独自算出の注目度): 70.86738083862099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Perception Encoder (PE), a state-of-the-art vision encoder for image and video understanding trained via simple vision-language learning. Traditionally, vision encoders have relied on a variety of pretraining objectives, each tailored to specific downstream tasks such as classification, captioning, or localization. Surprisingly, after scaling our carefully tuned image pretraining recipe and refining with our robust video data engine, we find that contrastive vision-language training alone can produce strong, general embeddings for all of these downstream tasks. There is only one caveat: these embeddings are hidden within the intermediate layers of the network. To draw them out, we introduce two alignment methods: language alignment for multimodal language modeling, and spatial alignment for dense prediction. Together, our PE family of models achieves best-in-class results on a wide variety of tasks, including (1) zero-shot image and video classification and retrieval, simultaneously obtaining 86.6 average zero-shot ImageNet robustness and 76.9 zero-shot Kinetics-400 video classification; (2) document, image, and video Q&A, enabling 94.6 DocVQA, 80.9 InfographicVQA, and 82.7 PerceptionTest with an 8B LLM; and (3) spatial tasks such as detection, tracking, and depth estimation, setting a new COCO state-of-the-art of 66.0 box mAP. To foster further research, we release our models, code, and novel dataset of synthetically and human-annotated videos: https://github.com/facebookresearch/perception_models
- Abstract(参考訳): 本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための最先端の視覚エンコーダである知覚エンコーダ(PE)を紹介する。
伝統的に、視覚エンコーダは様々な事前訓練対象に依存しており、それぞれが分類、キャプション、ローカライゼーションなどの特定の下流タスクに調整されている。
意外なことに、慎重に調整された画像事前学習のレシピをスケールして、堅牢なビデオデータエンジンで精錬した後、コントラストのある視覚言語トレーニングだけで、これらの下流タスクに強力な汎用的な埋め込みを実現できることがわかりました。
これらの埋め込みはネットワークの中間層に隠されている。
そこで本研究では,多モーダル言語モデリングのための言語アライメントと,高密度予測のための空間アライメントという2つのアライメント手法を提案する。
1)ゼロショット画像とビデオの分類と検索,86.6の平均ゼロショット画像ネットロバスト性と76.9ゼロショット動画像分類,(2)ドキュメント,画像,ビデオQ&A,94.6 DocVQA,80.9 InfographicVQA,82.7 PerceptionTest with a 8B LLM,(3) 検出,追跡,深度推定などの空間的タスク,66.0ボックスmAPのCOCO状態を新たに設定した。
さらなる研究を促進するために、私たちは、合成および人手による注釈付きビデオのモデル、コード、新しいデータセットをリリースした。
関連論文リスト
- VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding [59.020450264301026]
VideoLLaMA3は、画像とビデオの理解のためのより高度なマルチモーダル基盤モデルである。
VideoLLaMA3には、視覚適応、視覚言語調整、ファインチューニング、ビデオ中心のファインチューニングの4つのトレーニングステージがある。
VideoLLaMA3は、画像理解ベンチマークとビデオ理解ベンチマークの両方で魅力的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-22T18:59:46Z) - FLAVARS: A Multimodal Foundational Language and Vision Alignment Model for Remote Sensing [5.170800801074805]
コントラスト学習とマスクモデリングを組み合わせた事前学習手法であるFLAVARSを提案する。
FLAVARSは、KNN分類のような視覚のみのタスクにおいて、SkyCLIPのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-01-14T23:31:20Z) - Video Prediction Models as General Visual Encoders [0.0]
研究者らは、映像予測モデルを一般的な視覚エンコーダとして使用し、重要な空間的・時間的情報をキャプチャする能力を活用することを提案する。
人間の視覚研究にインスパイアされたこの手法は、画像から動きを表す潜在空間を開発することを目的としている。
実験には、事前訓練されたビデオ生成モデルの適用、潜伏空間の分析、フォアグラウンド・バックグラウンド・セグメンテーションのためのカスタムデコーダのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-05-25T23:55:47Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - Open Vocabulary Semantic Scene Sketch Understanding [5.638866331696071]
フリーハンドシーンスケッチの機械的理解における未探索だが基本的な視覚問題について検討する。
本研究では,意味的に認識可能な特徴空間を実現するスケッチエンコーダを導入し,その性能を意味的スケッチセグメンテーションタスクでテストすることで評価する。
提案手法は,セグメンテーション結果のゼロショットCLIP画素精度を37ポイント上回り,FS-COCOスケッチデータセットの精度が85.5%に達した。
論文 参考訳(メタデータ) (2023-12-18T19:02:07Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。