論文の概要: PixelWorld: Towards Perceiving Everything as Pixels
- arxiv url: http://arxiv.org/abs/2501.19339v2
- Date: Wed, 21 May 2025 02:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.331053
- Title: PixelWorld: Towards Perceiving Everything as Pixels
- Title(参考訳): PixelWorld: すべてをPixelとして認識する
- Authors: Zhiheng Lyu, Xueguang Ma, Wenhu Chen,
- Abstract要約: Perceive Everything as Pixels (PEAP)は、自然言語入力を単一のピクセル空間にレンダリングするためのベンチマークである。
実験の結果,PEAPは意味理解タスクにおいて,競争精度が向上することがわかった。
また、視覚情報とテキスト情報が密接に統合されている場合、ピクセルが前処理の複雑さを減らし、あらゆることを表現していることもわかりました。
- 参考スコア(独自算出の注目度): 50.13953243722129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent agentic language models increasingly need to interact directly with real-world environments containing intertwined visual and textual information through raw camera pixels, rather than relying on separate image and tokenized text processing, underscoring the necessity of a unified perception paradigm. To close this gap, we explore this idea through Perceive Everything as Pixels (PEAP) and release PixelWorld, a benchmark that renders natural-language, tabular, mathematical and diagrammatic inputs into a single pixel space. Experiments show that PEAP attains competitive accuracy on semantic-understanding tasks, indicating that a vision transformer can capture global textual semantics without explicit tokens. In contrast, reasoning-intensive benchmarks (math and code) exhibit sharp performance drops; however, Chain-of-Thought prompting partially mitigates this gap, hinting that explicit reasoning traces compensate for the missing token structure. We also find that when visual and textual information are closely integrated, representing everything as pixels reduces preprocessing complexity and avoids misalignment issues that often arise in separate pipelines. PixelWorld therefore serves as a practical benchmark for evaluating unified vision-language models and supports broader exploration of PEAP across diverse tasks.
- Abstract(参考訳): 最近のエージェント言語モデルは、分離された画像やトークン化されたテキスト処理に頼るのではなく、生のカメラピクセルを介して、視覚的およびテキスト情報を含む現実世界の環境と直接対話する必要がある。
このギャップを埋めるために、Perceive Everything as Pixels (PEAP)を通じてこのアイデアを探求し、自然言語、表、数学的、図形的な入力を単一のピクセル空間にレンダリングするベンチマークであるPixelWorldをリリースした。
実験の結果,PEAPは意味理解タスクの競合精度が向上し,視覚変換器が明示的なトークンを使わずにグローバルなテキストセマンティクスをキャプチャできることが示唆された。
対照的に、推論集約的なベンチマーク(マスとコード)では、パフォーマンスが大幅に低下するが、Chain-of-Thoughtは、このギャップを部分的に緩和し、明示的な推論トレースが欠落したトークン構造を補うことを示唆している。
また、視覚情報とテキスト情報が密接に統合されている場合、ピクセルが前処理の複雑さを減らし、別々のパイプラインでしばしば発生するミスアライメントの問題を避けるため、すべてのことを表現していることも分かりました。
したがってPixelWorldは、統一視覚言語モデルを評価するための実践的なベンチマークとして機能し、多様なタスクにわたるPEAPの広範な探索をサポートする。
関連論文リスト
- Attention, Please! PixelSHAP Reveals What Vision-Language Models Actually Focus On [0.0]
PixelSHAPは、Shapleyベースの分析を構造化ビジュアルエンティティに拡張するフレームワークである。
画像オブジェクトを体系的に摂動させ、VLMの応答に対するその影響を定量化することにより、視覚に基づく推論に適用する。
多様な埋め込みベースの類似度メトリクスをサポートし、Shapleyベースのメソッドにインスパイアされた最適化技術を使用して効率よくスケールする。
論文 参考訳(メタデータ) (2025-03-09T15:43:55Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - KeyPoint Relative Position Encoding for Face Recognition [15.65725865703615]
Keypoint RPE (KP-RPE) は、画素の重要度が近接によってのみ規定されない原理の拡張である。
コードと事前訓練されたモデルが利用可能である。
論文 参考訳(メタデータ) (2024-03-21T21:56:09Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process [94.41510903676837]
本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
論文 参考訳(メタデータ) (2023-06-08T17:59:32Z) - Learn how to Prune Pixels for Multi-view Neural Image-based Synthesis [10.571582038258443]
本稿では,ピクセルプルーニングの手法であるLeHoPPを提案する。
レンダリングビューにおける各入力ピクセルの重要性について検討し、無関係なピクセルの使用を避ける。
画像ベースのレンダリングネットワークを再トレーニングしなくても,合成品質と画素レートのトレードオフは良好である。
論文 参考訳(メタデータ) (2023-05-05T14:29:24Z) - Adaptive Single Image Deblurring [43.02281823557039]
本稿では,画像間の大きなぼやけた変化を扱うために,効率的な画素適応化と特徴注意設計を提案する。
また、性能を大幅に向上させる効果的なコンテンツ認識グローバルローカルフィルタリングモジュールを提案する。
論文 参考訳(メタデータ) (2022-01-01T10:10:19Z) - ITSELF: Iterative Saliency Estimation fLexible Framework [68.8204255655161]
機密度オブジェクト検出は、画像で最も顕著なオブジェクトを推定する。
我々は,ユーザ定義の仮定をモデルに追加できる,スーパーピクセルベースのITELF(ITSELF)を提案する。
ITSELFを5つのメトリクスと6つのデータセットで2つの最先端の精度推定器と比較する。
論文 参考訳(メタデータ) (2020-06-30T16:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。