論文の概要: DRIFT: A Residual Flow Adapter for Decoding Continuous Outputs in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.05758v1
- Date: Thu, 04 Jun 2026 06:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.596659
- Title: DRIFT: A Residual Flow Adapter for Decoding Continuous Outputs in Vision-Language Models
- Title(参考訳): DRIFT:視覚言語モデルにおける連続出力の復号化のための残留フローアダプタ
- Authors: Zhuoming Liu, Jinhong Lin, Kwan Man Cheng, Lin Zhang, Shayok Bagchi, Yin Li,
- Abstract要約: 本稿では,事前学習された視覚言語モデルを連続的復号化タスクに適用するためのフレームワークであるDRIFTを提案する。
DRIFTは、ターゲット出力の粗い推定を提供するベース予測器と、フローマッチングに基づく生成洗練されたモジュールを結合する。
DRIFTを視覚的接地やロボット制御など,知覚と計画の両方のタスクで評価する。
- 参考スコア(独自算出の注目度): 9.25715767290436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many modern vision-language models (VLMs) build on autoregressive decoding of discrete tokens. While text-based output interfaces enable scalable pretraining and strong zero-shot generalization across diverse tasks, they are poorly suited for problems that require precise continuous outputs, such as localizing temporal boundaries of events or generating robotic control actions. To address this challenge, we propose DRIFT, a general framework for adapting pretrained VLMs to continuous decoding tasks. DRIFT combines a base predictor, which provides a coarse estimate of the target output, with a generative refinement module based on flow matching that iteratively improves the prediction. This residual formulation transforms the generative modeling problem from learning a global output distribution to modeling a localized residual distribution around a strong prior, substantially simplifying optimization. We evaluate DRIFT on both perception and planning tasks, including visual grounding and robotic control. Across multiple tasks and architectures spanning MLLMs, VLAs, and WAMs, DRIFT consistently outperforms a strong set of regression- and generative-based solutions.
- Abstract(参考訳): 多くの現代の視覚言語モデル(VLM)は、離散トークンの自己回帰デコードに基づいている。
テキストベースの出力インターフェースは、多様なタスクにわたるスケーラブルな事前学習と強力なゼロショットの一般化を可能にするが、イベントの時間的境界の局所化やロボット制御アクションの生成など、正確な連続的な出力を必要とする問題には適していない。
この課題に対処するために,事前学習されたVLMを連続的復号化タスクに適用するための一般的なフレームワークであるDRIFTを提案する。
DRIFTは、ターゲット出力の粗い推定を提供するベース予測器と、予測を反復的に改善するフローマッチングに基づく生成洗練されたモジュールを結合する。
この残差定式化は、生成的モデリング問題を、大域的な出力分布の学習から、強い事前の局所的残差分布のモデリングへと変換し、実質的に最適化を単純化する。
DRIFTを視覚的接地やロボット制御など,知覚と計画の両方のタスクで評価する。
MLLM、VLA、WAMにまたがる複数のタスクやアーキテクチャにおいて、DRIFTは、レグレッションベースのソリューションと生成ベースのソリューションの強力なセットを一貫して上回っている。
関連論文リスト
- FLARE: Diffusion for Hybrid Language Model [72.60770374799634]
FLAREは、ハイブリッドアテンションな大規模言語モデルのための体系的な変換フレームワークである。
トークン平等なAR/拡散目標、ハードウェア対応カーネル、統一推論を組み合わせることで、ひとつのチェックポイントがARスタイルの検証された復号化と拡散スタイルの並列復号化の両方をサポートすることができる。
この結果から,実際のdLLMは復号化アルゴリズムだけでなく,データ品質や現在のブロック拡散目標のトレーニング非効率によって制限されていることが示唆された。
論文 参考訳(メタデータ) (2026-06-01T06:58:15Z) - Efficient and Adaptive Human Activity Recognition via LLM Backbones [39.42078885809324]
本稿では,大規模事前学習言語モデル(LLM)をセンサベースHARの汎用時間バックボーンとして再利用するパラダイムシフトを提案する。
提案手法は, 高速収束, 強力なデータ効率, 堅牢なデータ転送を実現する。
論文 参考訳(メタデータ) (2026-05-12T12:06:39Z) - OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。
トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。
エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T07:50:00Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models [4.497411606350301]
LPR(Real-world License Plate Recognition)は、モーションボケ、低解像度、複雑な照明などの深刻な劣化によって大きな課題に直面している。
画像復元モデルの画素レベルの最適化目標は、文字認識のセマンティックな目標と不一致である。
本稿では,Qwen3-VLに基づくエンドツーエンド構造対応マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T03:32:55Z) - Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - RCCDA: Adaptive Model Updates in the Presence of Concept Drift under a Constrained Resource Budget [28.53294084812961]
リアルタイム機械学習アルゴリズムは、コンセプトドリフトにモデルを適用するという課題に直面していることが多い。
既存のソリューションは、しばしば資源制約された環境に対して高い計算オーバーヘッドをもたらすドリフト検出法に依存している。
本稿では,MLトレーニングのダイナミクスを最適化し,事前定義されたリソース制約へのコンプライアンスを確保した動的モデル更新ポリシーであるRCCDAを提案する。
論文 参考訳(メタデータ) (2025-05-30T02:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。