論文の概要: PixelWorld: Towards Perceiving Everything as Pixels
- arxiv url: http://arxiv.org/abs/2501.19339v1
- Date: Fri, 31 Jan 2025 17:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:34.650260
- Title: PixelWorld: Towards Perceiving Everything as Pixels
- Title(参考訳): PixelWorld: すべてをPixelとして認識する
- Authors: Zhiheng Lyu, Xueguang Ma, Wenhu Chen,
- Abstract要約: 我々は,すべてのモダリティ(テキスト,テーブル,コード,図,画像など)をピクセル入力として統一することを提案する。
既存のモデルの性能を評価するために、上述したすべてのモダリティをピクセル空間に統合する新しい評価スイートであるPixelWorldを紹介した。
- 参考スコア(独自算出の注目度): 50.13953243722129
- License:
- Abstract: Existing foundation models typically process visual input as pixels and textual input as tokens, a paradigm that contrasts with human perception, where both modalities are processed in a unified manner. With the rise of embodied and agentic AI, where inputs primarily come from camera pixels, the need for a unified perception framework becomes increasingly evident. In this paper, we propose to unify all modalities (text, tables, code, diagrams, images, etc) as pixel inputs, i.e. "Perceive Everything as Pixels" (PEAP). We introduce PixelWorld, a novel evaluation suite that unifies all the mentioned modalities into pixel space to gauge the existing models' performance. Our findings show that (1) PEAP outperforms baseline with token-based input in multimodal datasets, benefiting from unified input for better disambiguation, (2) significant declines in reasoning and coding capabilities across all models when processing pixel-based input, underscoring the need to enhance foundation models' perceptual abilities, (3) larger models can maintain strong performance on non-reasoning tasks under PEAP, while smaller models like Phi-3.5-V suffer significant performance degradation, (4) the attention pattern of PEAP is highly aligned with text token input, (5) PEAP can be accelerated significantly by exploiting the spatial sparsity. We conclude that the existing frontier models are competent in pixel perception, however, there is still headroom for improvement. Our code, dataset will be released upon acceptance.
- Abstract(参考訳): 既存の基礎モデルは、通常、画像入力をピクセルとして処理し、テキスト入力をトークンとして処理する。
インプットが主にカメラピクセルから得られる、エンボディとエージェントAIの台頭により、統一された認識フレームワークの必要性はますます明白になっている。
本稿では,すべてのモダリティ(テキスト,テーブル,コード,ダイアグラム,画像など)をピクセル入力,すなわち "Perceive Everything as Pixels" (PEAP) として統一することを提案する。
既存のモデルの性能を評価するために、上述したすべてのモダリティをピクセル空間に統合する新しい評価スイートであるPixelWorldを紹介した。
その結果,(1)PEAPは,マルチモーダルデータセットにおけるトークンベースの入力によりベースラインを上回り,(2)画素ベースの入力を処理する場合,すべてのモデルにおける推論と符号化能力の大幅な低下,(3)基礎モデルの知覚能力の向上の必要性,(3)大規模モデルはPEAP下での非推論タスクにおいて高いパフォーマンスを維持することができること,(4)PEAPの注意パターンはテキストトークン入力と高度に整合していること,(5)PEAPは空間空間的疎結合を利用して大幅に加速できること,などが示唆された。
既存のフロンティアモデルはピクセル認識に優れていると結論づけるが、まだ改善の余地がある。
私たちのコード、データセットは受け入れ次第リリースされます。
関連論文リスト
- Focus Entirety and Perceive Environment for Arbitrary-Shaped Text Detection [31.180352896153682]
セグメンテーションベースのアプローチは、フレキシブルピクセルレベルの予測のため、顕著な競合候補として現れている。
そこで本研究では,フォーカス全体モジュールと知覚環境モジュールからなる多情報レベルの任意形テキスト検出器を提案する。
後者は、領域レベルの情報を抽出し、画素近傍の正のサンプルの分布にフォーカスするようモデルに促す。
論文 参考訳(メタデータ) (2024-09-25T11:24:37Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - KeyPoint Relative Position Encoding for Face Recognition [15.65725865703615]
Keypoint RPE (KP-RPE) は、画素の重要度が近接によってのみ規定されない原理の拡張である。
コードと事前訓練されたモデルが利用可能である。
論文 参考訳(メタデータ) (2024-03-21T21:56:09Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process [94.41510903676837]
本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
論文 参考訳(メタデータ) (2023-06-08T17:59:32Z) - Learn how to Prune Pixels for Multi-view Neural Image-based Synthesis [10.571582038258443]
本稿では,ピクセルプルーニングの手法であるLeHoPPを提案する。
レンダリングビューにおける各入力ピクセルの重要性について検討し、無関係なピクセルの使用を避ける。
画像ベースのレンダリングネットワークを再トレーニングしなくても,合成品質と画素レートのトレードオフは良好である。
論文 参考訳(メタデータ) (2023-05-05T14:29:24Z) - Adaptive Single Image Deblurring [43.02281823557039]
本稿では,画像間の大きなぼやけた変化を扱うために,効率的な画素適応化と特徴注意設計を提案する。
また、性能を大幅に向上させる効果的なコンテンツ認識グローバルローカルフィルタリングモジュールを提案する。
論文 参考訳(メタデータ) (2022-01-01T10:10:19Z) - ITSELF: Iterative Saliency Estimation fLexible Framework [68.8204255655161]
機密度オブジェクト検出は、画像で最も顕著なオブジェクトを推定する。
我々は,ユーザ定義の仮定をモデルに追加できる,スーパーピクセルベースのITELF(ITSELF)を提案する。
ITSELFを5つのメトリクスと6つのデータセットで2つの最先端の精度推定器と比較する。
論文 参考訳(メタデータ) (2020-06-30T16:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。