論文の概要: From Tokens to Photons: Test-Time Physical Prompting for Vison-Language Models
- arxiv url: http://arxiv.org/abs/2512.12571v1
- Date: Sun, 14 Dec 2025 06:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.318819
- Title: From Tokens to Photons: Test-Time Physical Prompting for Vison-Language Models
- Title(参考訳): トークンから光子へ:バイソン・ランゲージモデルのための実時間物理プロンプト
- Authors: Boyeong Im, Wooseok Lee, Yoojin Kwon, Hyung-Sin Kim,
- Abstract要約: テスト時間適応のための多視点物理プロンプト(MVP)
MVPは、カメラ露光の三角形、ISO、シャッタースピード、開口を物理的プロンプトとして扱うことで、トークンから光子へのテストタイム適応を動かす。
ImageNet-ESとImageNet-ES-Diverseでは、MVPは単一のAuto-ExposureキャプチャでデジタルのみのTTAを一貫して上回る。
- 参考スコア(独自算出の注目度): 5.564793925574796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To extend the application of vision-language models (VLMs) from web images to sensor-mediated physical environments, we propose Multi-View Physical-prompt for Test-Time Adaptation (MVP), a forward-only framework that moves test-time adaptation (TTA) from tokens to photons by treating the camera exposure triangle--ISO, shutter speed, and aperture--as physical prompts. At inference, MVP acquires a library of physical views per scene, selects the top-k sensor settings using a source-affinity score, evaluates each retained view under lightweight digital augmentations, filters the lowest-entropy subset of augmented views, and aggregates predictions with Zero-temperature softmax (i.e., hard voting). This selection-then-vote design is simple, calibration-friendly, and requires no gradients or model modifications. On ImageNet-ES and ImageNet-ES-Diverse, MVP consistently outperforms digital-only TTA on single Auto-Exposure captures, by up to 25.6 percentage points (pp), and delivers up to 3.4 pp additional gains over pipelines that combine conventional sensor control with TTA. MVP remains effective under reduced parameter candidate sets that lower capture latency, demonstrating practicality. These results support the main claim that, beyond post-capture prompting, measurement-time control--selecting and combining real physical views--substantially improves robustness for VLMs.
- Abstract(参考訳): Web画像からセンサを介した物理的環境への視覚言語モデル(VLM)の適用を拡大するため,テスト時間適応のためのマルチビュー物理プロンプト(MVP)を提案する。
推測すると、MVPはシーンごとの物理的なビューのライブラリを取得し、ソース親和性スコアを使用してトップkセンサー設定を選択し、軽量デジタル拡張の下で各保持されたビューを評価し、拡張ビューの最低エントロピーサブセットをフィルタリングし、ゼロ温度ソフトマックス(ハード投票)で予測を集約する。
この選択投票型設計は単純でキャリブレーションに優しいものであり、勾配やモデル修正は不要である。
ImageNet-ESとImageNet-ES-Diverseでは、MVPは単一オートエクスポージャーキャプチャーにおいてデジタルのみのTTAを、最大25.6ポイント(pp)で一貫して上回り、従来のセンサー制御とTTAを組み合わせたパイプラインよりも最大3.4ppの利得を提供する。
MVPは、キャプチャレイテンシを低くし、実用性を実証する、パラメータ候補セットの削減の下で有効である。
これらの結果は, 撮影後処理の促進, 測定時間制御, 実際の物理ビューの選択, 組み合わせなどを超えて, VLMのロバスト性を向上させるという主張を裏付けるものである。
関連論文リスト
- SWIFT: A General Sensitive Weight Identification Framework for Fast Sensor-Transfer Pansharpening [16.578857961692716]
Pansharpeningは、高分解能パノクロマトグラフィ(PAN)画像と低分解能マルチスペクトル(LRMS)画像を融合して高分解能マルチスペクトル(HRMS)画像を生成することを目的としている。
深層学習に基づく手法は有望な性能を達成したが、通常、目に見えないセンサーのデータに適用すると、厳しい性能劣化に悩まされる。
クロスセンサ適応のための高速かつ汎用的なフレームワークSWIFTを提案する。
論文 参考訳(メタデータ) (2025-07-27T15:06:05Z) - Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - Adaptive Camera Sensor for Vision Models [4.566795168995489]
Lensは、モデルの観点から高品質な画像をキャプチャすることで、モデル性能を向上させる新しいカメラセンサ制御方法である。
LensのコアとなるVisiTは、トレーニング不要で、モデル固有の品質指標で、テスト時に個々の未ラベルのサンプルを評価する。
Lensを検証するために、様々なセンサと照明条件から自然摂動をキャプチャする新しいベンチマークデータセットであるImageNet-ES Diverseを紹介する。
論文 参考訳(メタデータ) (2025-03-04T01:20:23Z) - Mobile Robotic Multi-View Photometric Stereo [6.38649778399667]
Multi-View Photometric Stereoは、画像からオブジェクトを詳細に3D取得する一般的な方法である。
典型的なMVPS実験装置は、うまく校正された光源と、取り外し不能なベースに設置された単眼カメラを必要とする。
これにより、移動プラットフォームでのMVPSの使用が制限され、モバイルロボティクスアプリケーションの3D取得におけるMVPSのメリットが制限されます。
論文 参考訳(メタデータ) (2025-02-15T16:10:33Z) - Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers [58.80845404416028]
データフリー量子化(DFQ)は、実際のデータにアクセスせずにモデル量子化を可能にし、データのセキュリティとプライバシに関する懸念に対処する。
ビジョントランスフォーマー(ViTs)の普及に伴い、ViTsのDFQは大きな注目を集めている。
本稿では,新しいセマンティックアライメントと強化データ自由化手法であるSARDFQを提案する。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
大規模な実験と分析により、AVG-LLaVAは11ベンチマークで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection [66.72992463712299]
Vision Transformers (ViT) は、大規模なVisionとLanguage Pre-trainingモデルで人気が高まっている。
これまでの研究では、ViTsの有効性が実証されているが、長い視覚的シーケンスによって引き起こされる計算の非効率性に苦慮している。
TRIPSを導入し、視覚バックボーン内のテキスト誘導パッチ選択層を用いて視覚列を縮小する。
実験の結果, TRIPSは40%の高速化を実現し, 下流タスクの競争力や優れた性能を維持していることがわかった。
論文 参考訳(メタデータ) (2024-01-11T14:31:30Z) - Learned Camera Gain and Exposure Control for Improved Visual Feature
Detection and Matching [12.870196901446208]
我々は、環境照明の変化を考慮に入れたデータ駆動型アプローチを探求し、ビジュアル・オドメトリー(VO)や視覚同時像定位マッピング(SLAM)で使用する画像の品質を改善した。
我々は、カメラゲインと露出時間パラメータを予測的に調整するために、深層畳み込みニューラルネットワークモデルを訓練する。
我々は、我々のネットワークが劇的な照明変化を予想し、補うことができるような、広範囲な実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2021-02-08T16:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。