論文の概要: LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
- arxiv url: http://arxiv.org/abs/2605.27365v2
- Date: Wed, 27 May 2026 02:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.170853
- Title: LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
- Title(参考訳): LocateAnything: 並列ボックスデコーディングによる高速かつ高品質なビジョンランゲージグラウンド
- Authors: Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu,
- Abstract要約: 並列ボックスデコーディング(PBD)に基づく統合生成基盤・検出フレームワークを提案する。
PBDはデコードスループットとローカライズ精度の両方を改善する。
さらに、スケーラブルなデータエンジンを開発し、1億1800万以上のトレーニングサンプルを持つ大規模データセットであるLocateAnything-Dataをキュレートします。
- 参考スコア(独自算出の注目度): 80.49137401046201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) commonly formulate visual grounding and detection as a coordinate-token generation problem, serializing each 2D box into multiple 1D tokens that are learned and decoded largely independently. This token-by-token decoding mismatches the coupled structure of box geometry and creates a practical inference bottleneck due to strictly sequential generation. We introduce LocateAnything, a unified generative grounding and detection framework based on Parallel Box Decoding (PBD). By decoding geometric elements such as bounding boxes and points as atomic units in a single step, LocateAnything preserves intra-box geometric coherence and unlocks substantial parallelism. We show that PBD improves both decoding throughput and localization accuracy. We further develop a scalable data engine and curate LocateAnything-Data, a large-scale dataset with more than 138 million training samples, substantially increasing data diversity for high-precision localization. Extensive evaluations show that LocateAnything advances the speed-accuracy frontier, achieving significantly higher decoding throughput while improving high-IoU localization quality across diverse benchmarks. The results highlight the complementary benefits of Parallel Box Decoding and large-scale training data in enabling efficient and precise unified visual grounding and detection.
- Abstract(参考訳): 視覚言語モデル(VLM)は一般に視覚的接地と検出を座標トークン生成問題として定式化し、各2Dボックスを複数の1Dトークンにシリアライズし、独立して学習し、復号する。
このトークン・バイ・トケンデコーディングはボックス幾何の結合構造をミスマッチさせ、厳密な逐次生成による実用的な推論ボトルネックを生み出す。
並列ボックスデコーディング(PBD)に基づく統合生成基盤・検出フレームワークであるLocateAnythingを紹介する。
ボックスや点などの幾何学的要素を1ステップで原子単位としてデコードすることで、LocateAnythingはボックス内の幾何学的コヒーレンスを保持し、かなりの並列性を解き放つ。
PBDはデコードスループットとローカライズ精度の両方を改善する。
さらに、スケーラブルなデータエンジンを開発し、1億1800万以上のトレーニングサンプルを持つ大規模データセットであるLocateAnything-Dataをキュレートする。
大規模な評価では、LocateAnythingは速度精度のフロンティアを向上し、デコードスループットが大幅に向上し、多様なベンチマークで高いIoUローカライゼーション品質が向上している。
その結果,Parallel Box Decodingと大規模トレーニングデータの相補的な利点を浮き彫りにした。
関連論文リスト
- Visual-Redundancy-Controlled Parallel Decoding for Diffusion-Based Multimodal Large Language Models [9.95016675032699]
拡散に基づく多モード多言語モデル(dMLLM)は、複数のマスキング位置のトークンを並列に反復的に予測することでデコードする。
既存の信頼に基づく復号化ランクは、独立して位置を隠蔽し、トップKの位置をコミットし、コミットされたトークンが補完的な視覚的根拠を提供するかどうかを無視する。
本稿では,視覚的に相補的な位置を優先するためにトークン・ツー・イメージ・アテンションを用いたトレーニング不要な推論時間復号法である視覚冗長制御復号法(VRCD)を提案する。
論文 参考訳(メタデータ) (2026-05-25T13:16:51Z) - PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - Diffusion Autoencoders with Perceivers for Long, Irregular and Multimodal Astronomical Sequences [47.1547360356314]
パーシーバー付き拡散オートエンコーダ(deep)について紹介する。
daepは異種の測定をトークン化し、Perceiverエンコーダで圧縮し、Perceiver-IO拡散デコーダで再構成する。
様々な分光学的および測光的な天文学的なデータセットにわたって、ディープは低い再構成誤差を達成し、より差別的な潜在空間を生成し、より微細な構造を保存している。
論文 参考訳(メタデータ) (2025-10-23T14:21:01Z) - Representation Learning of Point Cloud Upsampling in Global and Local Inputs [1.4045865137356779]
本稿では,ポイントクラウドのグローバルおよびローカルな構造的特徴から明示的に学習することで,アップサンプリング性能を向上させる新しいフレームワークであるReLPUを提案する。
我々のフレームワークは、最先端のオートエンコーダベースのネットワークに適用され、標準データセット上で検証された。
論文 参考訳(メタデータ) (2025-01-13T06:13:25Z) - BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation [11.986549780782724]
医用画像の正確な分割作業のために,BRAU-Net++ というハイブリッドで効果的な CNN-Transformer ネットワークを提案する。
具体的には、BRAU-Net++は、U字型エンコーダデコーダ構造を設計するために、コアビルディングブロックとしてバイレベルルーティングアテンションを使用する。
提案手法は,そのベースラインであるBRAU-Netを含む,最先端の手法を超越した手法である。
論文 参考訳(メタデータ) (2024-01-01T10:49:09Z) - Generating Aligned Pseudo-Supervision from Non-Aligned Data for Image
Restoration in Under-Display Camera [84.41316720913785]
トレーニングデータ収集のための古典的なステレオセットアップを再考する -- 同じシーンの2つの画像を1つのUDCと1つの標準カメラでキャプチャする。
鍵となるアイデアは、高品質な参照イメージから詳細を"コピー"し、UDCイメージ上でそれらを"ペースト"することです。
トランスフォーマーベースの新しいフレームワークは、対応するUDC入力に対して、整合性はあるが高品質なターゲットデータを生成する。
論文 参考訳(メタデータ) (2023-04-12T17:56:42Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。