論文の概要: PixelWorld: Towards Perceiving Everything as Pixels
- arxiv url: http://arxiv.org/abs/2501.19339v1
- Date: Fri, 31 Jan 2025 17:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 22:46:13.14975
- Title: PixelWorld: Towards Perceiving Everything as Pixels
- Title(参考訳): PixelWorld: すべてをPixelとして認識する
- Authors: Zhiheng Lyu, Xueguang Ma, Wenhu Chen,
- Abstract要約: 我々は,すべてのモダリティ(テキスト,テーブル,コード,図,画像など)をピクセル入力として統一することを提案する。
既存のモデルの性能を評価するために、上述したすべてのモダリティをピクセル空間に統合する新しい評価スイートであるPixelWorldを紹介した。
- 参考スコア(独自算出の注目度): 50.13953243722129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing foundation models typically process visual input as pixels and textual input as tokens, a paradigm that contrasts with human perception, where both modalities are processed in a unified manner. With the rise of embodied and agentic AI, where inputs primarily come from camera pixels, the need for a unified perception framework becomes increasingly evident. In this paper, we propose to unify all modalities (text, tables, code, diagrams, images, etc) as pixel inputs, i.e. "Perceive Everything as Pixels" (PEAP). We introduce PixelWorld, a novel evaluation suite that unifies all the mentioned modalities into pixel space to gauge the existing models' performance. Our findings show that (1) PEAP outperforms baseline with token-based input in multimodal datasets, benefiting from unified input for better disambiguation, (2) significant declines in reasoning and coding capabilities across all models when processing pixel-based input, underscoring the need to enhance foundation models' perceptual abilities, (3) larger models can maintain strong performance on non-reasoning tasks under PEAP, while smaller models like Phi-3.5-V suffer significant performance degradation, (4) the attention pattern of PEAP is highly aligned with text token input, (5) PEAP can be accelerated significantly by exploiting the spatial sparsity. We conclude that the existing frontier models are competent in pixel perception, however, there is still headroom for improvement. Our code, dataset will be released upon acceptance.
- Abstract(参考訳): 既存の基礎モデルは、通常、画像入力をピクセルとして処理し、テキスト入力をトークンとして処理する。
インプットが主にカメラピクセルから得られる、エンボディとエージェントAIの台頭により、統一された認識フレームワークの必要性はますます明白になっている。
本稿では,すべてのモダリティ(テキスト,テーブル,コード,ダイアグラム,画像など)をピクセル入力,すなわち "Perceive Everything as Pixels" (PEAP) として統一することを提案する。
既存のモデルの性能を評価するために、上述したすべてのモダリティをピクセル空間に統合する新しい評価スイートであるPixelWorldを紹介した。
その結果,(1)PEAPは,マルチモーダルデータセットにおけるトークンベースの入力によりベースラインを上回り,(2)画素ベースの入力を処理する場合,すべてのモデルにおける推論と符号化能力の大幅な低下,(3)基礎モデルの知覚能力の向上の必要性,(3)大規模モデルはPEAP下での非推論タスクにおいて高いパフォーマンスを維持することができること,(4)PEAPの注意パターンはテキストトークン入力と高度に整合していること,(5)PEAPは空間空間的疎結合を利用して大幅に加速できること,などが示唆された。
既存のフロンティアモデルはピクセル認識に優れていると結論づけるが、まだ改善の余地がある。
私たちのコード、データセットは受け入れ次第リリースされます。
関連論文リスト
- Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications [0.0]
本稿では,Large Language Models (LLM) と最先端のビジョンバックボーンを統合する新しいコンテキスト認識セマンティックフレームワークを提案する。
視覚と言語の特徴を整合させるクロスアテンションメカニズムを導入し、モデルがコンテキストをより効果的に推論できるようにする。
この研究は視覚と言語の間のギャップを埋め、自律運転、医療画像、ロボット工学などの応用における、よりインテリジェントでコンテキスト対応の視覚システムへの道を開く。
論文 参考訳(メタデータ) (2025-03-25T02:12:35Z) - Attention, Please! PixelSHAP Reveals What Vision-Language Models Actually Focus On [0.0]
PixelSHAPは、Shapleyベースの分析を構造化ビジュアルエンティティに拡張するフレームワークである。
画像オブジェクトを体系的に摂動させ、VLMの応答に対するその影響を定量化することにより、視覚に基づく推論に適用する。
多様な埋め込みベースの類似度メトリクスをサポートし、Shapleyベースのメソッドにインスパイアされた最適化技術を使用して効率よくスケールする。
論文 参考訳(メタデータ) (2025-03-09T15:43:55Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - KeyPoint Relative Position Encoding for Face Recognition [15.65725865703615]
Keypoint RPE (KP-RPE) は、画素の重要度が近接によってのみ規定されない原理の拡張である。
コードと事前訓練されたモデルが利用可能である。
論文 参考訳(メタデータ) (2024-03-21T21:56:09Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Context Does Matter: End-to-end Panoptic Narrative Grounding with
Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。
Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。
DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文 参考訳(メタデータ) (2023-10-25T13:12:39Z) - Superpixel Semantics Representation and Pre-training for Vision-Language Task [11.029236633301222]
画像空間における粗い粒度のセマンティックな相互作用は無視するべきではない。
本稿では,スーパーピクセルを包括的で堅牢なビジュアルプリミティブとして提案する。
画像全体を細粒度で粗い視覚階層として解析することができる。
論文 参考訳(メタデータ) (2023-10-20T12:26:04Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process [94.41510903676837]
本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
論文 参考訳(メタデータ) (2023-06-08T17:59:32Z) - Learn how to Prune Pixels for Multi-view Neural Image-based Synthesis [10.571582038258443]
本稿では,ピクセルプルーニングの手法であるLeHoPPを提案する。
レンダリングビューにおける各入力ピクセルの重要性について検討し、無関係なピクセルの使用を避ける。
画像ベースのレンダリングネットワークを再トレーニングしなくても,合成品質と画素レートのトレードオフは良好である。
論文 参考訳(メタデータ) (2023-05-05T14:29:24Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Adaptive Single Image Deblurring [43.02281823557039]
本稿では,画像間の大きなぼやけた変化を扱うために,効率的な画素適応化と特徴注意設計を提案する。
また、性能を大幅に向上させる効果的なコンテンツ認識グローバルローカルフィルタリングモジュールを提案する。
論文 参考訳(メタデータ) (2022-01-01T10:10:19Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - ITSELF: Iterative Saliency Estimation fLexible Framework [68.8204255655161]
機密度オブジェクト検出は、画像で最も顕著なオブジェクトを推定する。
我々は,ユーザ定義の仮定をモデルに追加できる,スーパーピクセルベースのITELF(ITSELF)を提案する。
ITSELFを5つのメトリクスと6つのデータセットで2つの最先端の精度推定器と比較する。
論文 参考訳(メタデータ) (2020-06-30T16:51:31Z) - Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal
Transformers [46.275416873403614]
我々はPixel-BERTを提案し,画像画素とテキストとの整合性を深層マルチモーダル変換器で学習し,視覚と言語の埋め込みを共同で学習する。
私たちのアプローチでは、VQA(Visual Question Answering)、画像テキスト検索、Natural Language for Visual Reasoning for Real(NLVR)など、下流タスクの最先端技術を実現しています。
論文 参考訳(メタデータ) (2020-04-02T07:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。