論文の概要: Falcon Perception
- arxiv url: http://arxiv.org/abs/2603.27365v1
- Date: Sat, 28 Mar 2026 18:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.923035
- Title: Falcon Perception
- Title(参考訳): ファルコン・パーセプション
- Authors: Aviraj Bevli, Sofian Chaybouti, Yasser Dahou, Hakim Hacid, Ngoc Dung Huynh, Phuc H. Le Khac, Sanath Narayan, Wamiq Reyaz Para, Ankit Singh,
- Abstract要約: Falcon Perception(ファルコン・パーセプション)は、画像パッチとテキストトークンを第1層から共有パラメータ空間で処理する高密度トランスフォーマーである。
Falcon Perceptionは軽量なトークンインターフェースを保持し、特別なヘッドで連続的な空間出力をデコードする。
単一のスケーラブルなバックボーンを維持し、複雑性をデータやトレーニング信号にシフトするのです。
- 参考スコア(独自算出の注目度): 9.683117886176772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perception-centric systems are typically implemented with a modular encoder-decoder pipeline: a vision backbone for feature extraction and a separate decoder (or late-fusion module) for task prediction. This raises a central question: is this architectural separation essential or can a single early-fusion stack do both perception and task modeling at scale? We introduce Falcon Perception, a unified dense Transformer that processes image patches and text tokens in a shared parameter space from the first layer, using a hybrid attention pattern (bidirectional among image tokens, causal for prediction tokens) to combine global visual context with autoregressive, variable-length instance generation. To keep dense outputs practical, Falcon Perception retains a lightweight token interface and decodes continuous spatial outputs with specialized heads, enabling parallel high-resolution mask prediction. Our design promotes simplicity: we keep a single scalable backbone and shift complexity toward data and training signals, adding only small heads where outputs are continuous and dense. On SA-Co, Falcon Perception improves mask quality to 68.0 Macro-F$_1$ compared to 62.3 of SAM3. We also introduce PBench, a benchmark targeting compositional prompts (OCR, spatial constraints, relations) and dense long-context regimes, where the model shows better gains. Finally, we extend the same early-fusion recipe to Falcon OCR: a compact 300M-parameter model which attains 80.3% on olmOCR and 88.64 on OmniDocBench.
- Abstract(参考訳): 知覚中心のシステムは一般的にモジュラーエンコーダ・デコーダパイプラインで実装される:特徴抽出のためのビジョンバックボーンとタスク予測のための分離されたデコーダ(またはレイトフュージョンモジュール)である。
このアーキテクチャの分離が不可欠か、あるいは単一のアーリーフュージョンスタックが、大規模に認識とタスクモデリングの両方を実行できるのか?
Falcon Perception(ファルコン・パーセプション)は、画像パッチとテキストトークンを第1層から共有パラメータ空間で処理する統合された高密度トランスフォーマーで、グローバルな視覚コンテキストと可変長のインスタンス生成を組み合わせるために、ハイブリッドアテンションパターン(画像トークン間の双方向、予測トークンの因果関係)を用いる。
密集した出力を実用的に維持するために、Falcon Perceptionは軽量なトークンインターフェースを保持し、特別なヘッドで連続的な空間出力をデコードし、並列な高解像度マスク予測を可能にする。
単一のスケーラブルなバックボーンを維持して,データやトレーニング信号に複雑性をシフトし,アウトプットが連続的かつ高密度な小さなヘッドのみを追加します。
SA-Coでは、Falcon Perceptionは、SAM3の62.3に比べて68.0 Macro-F$_1$に改善されている。
また,構成的プロンプト(OCR,空間的制約,関係性)と高密度長コンテキストを対象とするベンチマークであるPBenchを導入する。
最後に、オムニドベンチで80.3%、オムニドベンチで88.64となるコンパクトな300MパラメータモデルであるファルコンOCRに、同じ早期融合のレシピを拡張した。
関連論文リスト
- End-to-End Training for Unified Tokenization and Latent Denoising [82.91537591286554]
統一トークン化と潜伏拡散のためのオートエンコーダアーキテクチャUNITEを提案する。
UNITEは、画像トークン化器と重量共有による潜伏ジェネレータの両方として機能するジェネレータで構成されている。
トークン化とスクラッチ生成の単一段階共同訓練が実現可能であることを示す。
論文 参考訳(メタデータ) (2026-03-23T17:59:49Z) - StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models [57.674757786328236]
StructSAMは、Segment Anything Model(SAM)に適した解像度保存型マージアンマージフレームワークである
また,StructSAMはエンコーダFLOPsを25~30%削減し,mIoU/Diceに少量の低下を認めた。
また、スペクトルグラフ粗大化ビューでは、スコア誘導マージにより、ランダムまたはウィンドウ制限ベースラインと比較して、ラプラシアスペクトル歪みが有界となることを示す。
論文 参考訳(メタデータ) (2026-03-07T18:30:58Z) - Beyond BEV: Optimizing Point-Level Tokens for Collaborative Perception [17.654858416126093]
協調的知覚により、エージェントは中間的特徴を交換することで知覚能力を高めることができる。
既存の手法は通常、これらの中間機能を2D Bird's-eye-view (BEV)表現として整理する。
ポイントレベル最適化トークンを利用した新しい協調認識フレームワークであるCoPLOTを提案する。
論文 参考訳(メタデータ) (2025-08-27T07:27:42Z) - Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model [69.79418000132995]
AliTokはトークンシーケンスの依存性構造を変更する新しいアラインド・トークンライザである。
AliTokは177Mパラメータしか持たない標準的なデコーダのみの自己回帰モデルで、ImageNet-256ベンチマークで1.44のgFIDと319.5のISを達成している。
論文 参考訳(メタデータ) (2025-06-05T17:45:10Z) - Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。