論文の概要: PixelWorld: Towards Perceiving Everything as Pixels
- arxiv url: http://arxiv.org/abs/2501.19339v2
- Date: Wed, 21 May 2025 02:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.331053
- Title: PixelWorld: Towards Perceiving Everything as Pixels
- Title(参考訳): PixelWorld: すべてをPixelとして認識する
- Authors: Zhiheng Lyu, Xueguang Ma, Wenhu Chen,
- Abstract要約: Perceive Everything as Pixels (PEAP)は、自然言語入力を単一のピクセル空間にレンダリングするためのベンチマークである。
実験の結果,PEAPは意味理解タスクにおいて,競争精度が向上することがわかった。
また、視覚情報とテキスト情報が密接に統合されている場合、ピクセルが前処理の複雑さを減らし、あらゆることを表現していることもわかりました。
- 参考スコア(独自算出の注目度): 50.13953243722129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent agentic language models increasingly need to interact directly with real-world environments containing intertwined visual and textual information through raw camera pixels, rather than relying on separate image and tokenized text processing, underscoring the necessity of a unified perception paradigm. To close this gap, we explore this idea through Perceive Everything as Pixels (PEAP) and release PixelWorld, a benchmark that renders natural-language, tabular, mathematical and diagrammatic inputs into a single pixel space. Experiments show that PEAP attains competitive accuracy on semantic-understanding tasks, indicating that a vision transformer can capture global textual semantics without explicit tokens. In contrast, reasoning-intensive benchmarks (math and code) exhibit sharp performance drops; however, Chain-of-Thought prompting partially mitigates this gap, hinting that explicit reasoning traces compensate for the missing token structure. We also find that when visual and textual information are closely integrated, representing everything as pixels reduces preprocessing complexity and avoids misalignment issues that often arise in separate pipelines. PixelWorld therefore serves as a practical benchmark for evaluating unified vision-language models and supports broader exploration of PEAP across diverse tasks.
- Abstract(参考訳): 最近のエージェント言語モデルは、分離された画像やトークン化されたテキスト処理に頼るのではなく、生のカメラピクセルを介して、視覚的およびテキスト情報を含む現実世界の環境と直接対話する必要がある。
このギャップを埋めるために、Perceive Everything as Pixels (PEAP)を通じてこのアイデアを探求し、自然言語、表、数学的、図形的な入力を単一のピクセル空間にレンダリングするベンチマークであるPixelWorldをリリースした。
実験の結果,PEAPは意味理解タスクの競合精度が向上し,視覚変換器が明示的なトークンを使わずにグローバルなテキストセマンティクスをキャプチャできることが示唆された。
対照的に、推論集約的なベンチマーク(マスとコード)では、パフォーマンスが大幅に低下するが、Chain-of-Thoughtは、このギャップを部分的に緩和し、明示的な推論トレースが欠落したトークン構造を補うことを示唆している。
また、視覚情報とテキスト情報が密接に統合されている場合、ピクセルが前処理の複雑さを減らし、別々のパイプラインでしばしば発生するミスアライメントの問題を避けるため、すべてのことを表現していることも分かりました。
したがってPixelWorldは、統一視覚言語モデルを評価するための実践的なベンチマークとして機能し、多様なタスクにわたるPEAPの広範な探索をサポートする。
関連論文リスト
- Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications [0.0]
本稿では,Large Language Models (LLM) と最先端のビジョンバックボーンを統合する新しいコンテキスト認識セマンティックフレームワークを提案する。
視覚と言語の特徴を整合させるクロスアテンションメカニズムを導入し、モデルがコンテキストをより効果的に推論できるようにする。
この研究は視覚と言語の間のギャップを埋め、自律運転、医療画像、ロボット工学などの応用における、よりインテリジェントでコンテキスト対応の視覚システムへの道を開く。
論文 参考訳(メタデータ) (2025-03-25T02:12:35Z) - Attention, Please! PixelSHAP Reveals What Vision-Language Models Actually Focus On [0.0]
PixelSHAPは、Shapleyベースの分析を構造化ビジュアルエンティティに拡張するフレームワークである。
画像オブジェクトを体系的に摂動させ、VLMの応答に対するその影響を定量化することにより、視覚に基づく推論に適用する。
多様な埋め込みベースの類似度メトリクスをサポートし、Shapleyベースのメソッドにインスパイアされた最適化技術を使用して効率よくスケールする。
論文 参考訳(メタデータ) (2025-03-09T15:43:55Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - KeyPoint Relative Position Encoding for Face Recognition [15.65725865703615]
Keypoint RPE (KP-RPE) は、画素の重要度が近接によってのみ規定されない原理の拡張である。
コードと事前訓練されたモデルが利用可能である。
論文 参考訳(メタデータ) (2024-03-21T21:56:09Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Context Does Matter: End-to-end Panoptic Narrative Grounding with
Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。
Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。
DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文 参考訳(メタデータ) (2023-10-25T13:12:39Z) - Superpixel Semantics Representation and Pre-training for Vision-Language Task [11.029236633301222]
画像空間における粗い粒度のセマンティックな相互作用は無視するべきではない。
本稿では,スーパーピクセルを包括的で堅牢なビジュアルプリミティブとして提案する。
画像全体を細粒度で粗い視覚階層として解析することができる。
論文 参考訳(メタデータ) (2023-10-20T12:26:04Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process [94.41510903676837]
本稿では,2つの空間を1つの表現学習フレームワークに統合した交互デノナイジング拡散プロセス(ADDP)を提案する。
復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。
学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。
論文 参考訳(メタデータ) (2023-06-08T17:59:32Z) - Learn how to Prune Pixels for Multi-view Neural Image-based Synthesis [10.571582038258443]
本稿では,ピクセルプルーニングの手法であるLeHoPPを提案する。
レンダリングビューにおける各入力ピクセルの重要性について検討し、無関係なピクセルの使用を避ける。
画像ベースのレンダリングネットワークを再トレーニングしなくても,合成品質と画素レートのトレードオフは良好である。
論文 参考訳(メタデータ) (2023-05-05T14:29:24Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Adaptive Single Image Deblurring [43.02281823557039]
本稿では,画像間の大きなぼやけた変化を扱うために,効率的な画素適応化と特徴注意設計を提案する。
また、性能を大幅に向上させる効果的なコンテンツ認識グローバルローカルフィルタリングモジュールを提案する。
論文 参考訳(メタデータ) (2022-01-01T10:10:19Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - ITSELF: Iterative Saliency Estimation fLexible Framework [68.8204255655161]
機密度オブジェクト検出は、画像で最も顕著なオブジェクトを推定する。
我々は,ユーザ定義の仮定をモデルに追加できる,スーパーピクセルベースのITELF(ITSELF)を提案する。
ITSELFを5つのメトリクスと6つのデータセットで2つの最先端の精度推定器と比較する。
論文 参考訳(メタデータ) (2020-06-30T16:51:31Z) - Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal
Transformers [46.275416873403614]
我々はPixel-BERTを提案し,画像画素とテキストとの整合性を深層マルチモーダル変換器で学習し,視覚と言語の埋め込みを共同で学習する。
私たちのアプローチでは、VQA(Visual Question Answering)、画像テキスト検索、Natural Language for Visual Reasoning for Real(NLVR)など、下流タスクの最先端技術を実現しています。
論文 参考訳(メタデータ) (2020-04-02T07:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。