Fugu-MT 論文翻訳(概要): Scale-Aware Vision-Language Adaptation for Extreme Far-Distance Video Person Re-identification

論文の概要: Scale-Aware Vision-Language Adaptation for Extreme Far-Distance Video Person Re-identification

arxiv url: http://arxiv.org/abs/2604.04183v1
Date: Sun, 05 Apr 2026 16:53:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:18.966921
Title: Scale-Aware Vision-Language Adaptation for Extreme Far-Distance Video Person Re-identification
Title（参考訳）: 極遠距離映像人物再識別のためのスケール認識型視覚言語適応
Authors: Ashwat Rajbhandari, Bharatesh Chakravarthi,
Abstract要約: ReID(Extreme far-distance video person re-identification)は、特に、スケール圧縮、解像度劣化、動きのぼかし、地上視線ミスマッチによって困難である。本研究では,これらの条件下で大規模視覚言語モデルを確実に動作させる方法について検討する。
参考スコア（独自算出の注目度）: 2.1665689529884697
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Extreme far-distance video person re-identification (ReID) is particularly challenging due to scale compression, resolution degradation, motion blur, and aerial-ground viewpoint mismatch. As camera altitude and subject distance increase, models trained on close-range imagery degrade significantly. In this work, we investigate how large-scale vision-language models can be adapted to operate reliably under these conditions. Starting from a CLIP-based baseline, we upgrade the visual backbone from ViT-B/16 to ViT-L/14 and introduce backbone-aware selective fine-tuning to stabilize adaptation of the larger transformer. To address noisy and low-resolution tracklets, we incorporate a lightweight temporal attention pooling mechanism that suppresses degraded frames and emphasizes informative observations. We retain adapter-based and prompt-conditioned cross-view learning to mitigate aerial-ground domain shifts, and further refine retrieval using improved optimization and k-reciprocal re-ranking. Experiments on the DetReIDX stress-test benchmark show that our approach achieves mAP scores of 46.69 (A2G), 41.23 (G2A), and 22.98 (A2A), corresponding to an overall mAP of 35.73. These results show that large-scale vision-language backbones, when combined with stability-focused adaptation, significantly enhance robustness in extreme far-distance video person ReID.
Abstract（参考訳）: ReID(Extreme far-distance video person re-identification)は特に、スケール圧縮、解像度劣化、動きのぼかし、地上視界のミスマッチによって困難である。カメラ高度と被写体距離が増加するにつれて、近距離画像で訓練されたモデルは大幅に低下した。本研究では,これらの条件下で大規模視覚言語モデルを確実に動作させる方法について検討する。 CLIPベースのベースラインから、視覚バックボーンをViT-B/16からViT-L/14にアップグレードし、大きなトランスの適応を安定させるためにバックボーンを選択的に微調整する。ノイズや低分解能トラックレットに対処するために,劣化フレームを抑制し,情報的観察を強調する軽量な時間的アテンションプーリング機構を組み込んだ。我々は、地上領域シフトを緩和するために、アダプタベースおよびアクシデント条件のクロスビュー学習を維持し、改良された最適化とk-reciprocal re-levelを用いてさらに洗練された検索を行う。 The DetReIDX stress-test benchmarks that our approach achieves mAP scores 46.69 (A2G), 41.23 (G2A), 22.98 (A2A), corresponding to a overall mAP of 35.73。これらの結果から,大規模視覚言語バックボーンと安定性を重視した適応が組み合わさって,遠距離ビデオ人物ReIDの堅牢性を著しく向上することが示唆された。

関連論文リスト

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models [64.56065206447788]
ビジョン言語モデル(VLM)は、標準の高品質なデータセット上で強力なパフォーマンスを達成する。 VLM-RobustBenchはノイズ、ブラー、天気、デジタル、幾何学にまたがる49種類の拡張型にまたがるベンチマークである。低重度空間摂動は、視覚的に重度な光度劣化よりも、しばしば性能を低下させる。
論文参考訳（メタデータ） (2026-03-06T10:58:02Z)
DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation [72.89376712495464]
DAGEは、グローバルコヒーレンスを細部から切り離すデュアルストリームトランスフォーマーである。低解像度ストリームは、フレーム/言語的注意を交互に交互に付加したアグレッシブなダウンサンプリングフレームで動作し、ビュー一貫性表現を構築する。高解像度のストリームは、フレーム毎に元のイメージを処理し、シャープな境界と小さな構造を保存する。この設計は、解像度とクリップ長を独立にスケールし、2Kまでの入力をサポートし、実用的な推論コストを維持する。
論文参考訳（メタデータ） (2026-03-04T05:29:29Z)
GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery [69.05066425853326]
シンキング・ウィズ・イメージ」パラダイムは、マルチモーダルな大規模言語モデル(MLLM)がズームインツールを使って視覚的なシーンを積極的に探索することを可能にする。これは超高分解能(UHR)リモートセンシングVQAにおいて必須であり、タスク関連キューは疎小である。筆者らは,(1)冷間開始型SFTデータセット, UHR-CoZ(UHR-CoZ)を多種多様なズームレジームをカバーするトレーニングフレームワークであるGeoEyes,(2)エージェント強化学習手法であるAdaZoom-GRPOを提案する。
論文参考訳（メタデータ） (2026-02-15T15:50:55Z)
VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling [60.341503853471494]
本稿では,新しいカメラ視点と視覚摂動の下で,視覚言語行動モデルが急激に劣化することを示す。本稿では,軽量で学習可能な更新によって視覚表現を再分類するワンショット適応フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-02T16:16:13Z)
AG-VPReID: A Challenging Large-Scale Benchmark for Aerial-Ground Video-based Person Re-Identification [39.350429734981184]
我々は,地上ビデオに基づく人物識別(ReID)のための大規模データセット AG-VPReID を紹介する。このデータセットは6,632人の被験者、32,321のトラックレット、960万フレーム以上をドローン(高度15-120m)、CCTV、ウェアラブルカメラで捉えている。本稿では,3つの補完ストリームからなるエンドツーエンドフレームワーク AG-VPReID-Net を提案する。
論文参考訳（メタデータ） (2025-03-11T07:38:01Z)
Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文参考訳（メタデータ） (2023-03-30T01:53:14Z)
Homography Decomposition Networks for Planar Object Tracking [11.558401177707312]
平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。本稿では, ホログラフィ変換を2つのグループに分解することで, 条件数を大幅に削減し, 安定化する新しいホモグラフィ分解ネットワークを提案する。
論文参考訳（メタデータ） (2021-12-15T06:13:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。