論文の概要: Pixelis: Reasoning in Pixels, from Seeing to Acting
- arxiv url: http://arxiv.org/abs/2603.25091v1
- Date: Thu, 26 Mar 2026 06:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.144071
- Title: Pixelis: Reasoning in Pixels, from Seeing to Acting
- Title(参考訳): Pixelis: 見るから行動まで、ピクセルで推論する
- Authors: Yunpeng Zhou,
- Abstract要約: 我々は,画像やビデオを直接操作するピクセルスペースエージェントであるPixelisを,コンパクトな実行可能な操作セットを通じて提示する。
6つの公開イメージとビデオベンチマークで、Pixelisは一貫して改善されている。
- 参考スコア(独自算出の注目度): 2.5754366051855837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most vision-language systems are static observers: they describe pixels, do not act, and cannot safely improve under shift. This passivity limits generalizable, physically grounded visual intelligence. Learning through action, not static description, is essential beyond curated data. We present Pixelis, a pixel-space agent that operates directly on images and videos via a compact set of executable operations (zoom/crop, segment, track, OCR, temporal localization) and learns from its consequences. Pixelis trains in three phases: (1) Supervised Fine-Tuning learns a pixel-tool grammar from Chain-of-Thought-Action traces with a masked imitation loss that upweights operation/argument tokens and auxiliary heads to stabilize pixel-grounded arguments; (2) Curiosity-Coherence Reward Fine-Tuning optimizes a dual-drive objective marrying prediction-error curiosity with adjacent-step coherence and a mild efficiency prior under a KL anchor, yielding short, valid, structured toolchains; (3) Pixel Test-Time RL performs label-free adaptation by retrieving neighbors, voting over complete trajectories rather than answers, and updating toward short, high-fidelity exemplars while constraining drift with a KL-to-EMA safety control. Across six public image and video benchmarks, Pixelis yields consistent improvements: the average relative gain is +4.08% over the same 8B baseline (peaking at +6.03% on VSI-Bench), computed as (ours-baseline)/baseline, while producing shorter, auditable toolchains and maintaining in-corridor KL during test-time learning. Acting within pixels, rather than abstract tokens, grounds multimodal perception in the physical world, linking visual reasoning with actionable outcomes, and enables embodied adaptation without external feedback.
- Abstract(参考訳): ほとんどの視覚言語システムは静的オブザーバであり、ピクセルを記述し、動作せず、シフト中も安全に改善できない。
この通過性は、一般化可能で物理的に接地された視覚的知性を制限する。
静的な記述ではなく、アクションを通じて学ぶことは、キュレートされたデータ以外にも不可欠である。
我々は,画像やビデオを直接操作するピクセル空間エージェントであるPixelisについて,その結果から学習する。
教師付ファインタニングは,1つの段階における画素・ツール文法の学習,2つの段階における画素・ツーリングの学習,2つの段階における画素・ツーリングの学習,2つの段階における画素・ツーリングの最適化,2つの段階のコヒーレンスとKLアンカー下での予測・エラー・キュリオシティの相互結合,2つのステップのコヒーレンスと緩やかな効率,3つの段階におけるPixel Test-Time RLは,周辺住民の回答ではなく,完全な軌跡を投票することで,ラベルフリーな適応を行う。
6つの公開画像とビデオのベンチマークで、Pixelisは一貫して改善されている: 平均的な相対的なゲインは、同じ8Bベースライン(VSI-Benchでは+6.03%)で+4.08%、(ours-baseline)/baselineとして計算され、短い監査可能なツールチェーンを生成し、テスト時間学習中にコリドールKLを維持している。
抽象トークンではなくピクセル内での動作は、物理的な世界におけるマルチモーダルな知覚を基盤として、視覚的推論と実行可能な結果とをリンクさせ、外部からのフィードバックなしに具体的適応を可能にする。
関連論文リスト
- TrajTok: Learning Trajectory Tokens enables better Video Understanding [63.1260672430712]
ビデオモデルのトークン化は、通常、パッチ化によって、過剰で冗長な数のトークンを生成する。
そこで我々は,ビデオモデルと完全に統合され,共にトレーニングされたビデオトークンモジュールであるTrajTokを提案する。
本稿では,前処理した視覚特徴量(TrajAdapter)の探索ヘッドとしてシームレスに統合できるか,特に長ビデオ推論において高い性能を持つ視覚言語モデル(TrajVLM)のアライメントコネクタとして利用できることを示す。
論文 参考訳(メタデータ) (2026-02-26T09:15:34Z) - Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding [65.11838260342586]
画素ワイドMLLMタスクのための単一変換器であるPixel-SAILを提案する。
本稿では,視覚的プロンプト入力を単一変換器で理解するための新しい視覚的プロンプトインジェクション戦略を提案する。
また, 単一変圧器の微細な特徴抽出能力を効率的に向上するために, ビジョンエキスパート蒸留戦略を導入する。
論文 参考訳(メタデータ) (2025-04-14T17:52:22Z) - PixelWorld: How Far Are We from Perceiving Everything as Pixels? [62.068243387551085]
最近のエージェント言語モデルは、密に絡み合った視覚情報やテキスト情報を含む現実世界の環境と相互作用する必要がある。
我々は、自然言語、表、数学的、図形的な入力を共有ピクセル空間にレンダリングするベンチマークであるPerceive Everything as Pixels (PEAP)を紹介する。
実験の結果,PEAPは意味理解タスクにおけるトークンベースのアプローチと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-01-31T17:39:21Z) - Cycle-Correspondence Loss: Learning Dense View-Invariant Visual Features from Unlabeled and Unordered RGB Images [8.789674502390378]
本稿では、ビュー不変な高密度記述子学習のためのCCL(Cycle-Cor correspondingence Loss)を紹介する。
鍵となるアイデアは、新しい画像に対する予測を使って、有効なピクセル対応を自律的に検出することである。
評価の結果、他の自己教師付きRGB専用手法よりも優れており、教師付き手法の性能にアプローチしていることがわかった。
論文 参考訳(メタデータ) (2024-06-18T09:44:56Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。