論文の概要: UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment
- arxiv url: http://arxiv.org/abs/2602.19442v1
- Date: Mon, 23 Feb 2026 02:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.646576
- Title: UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment
- Title(参考訳): UrbanAlign: VLM-Human Preference Alignmentのためのポストホックセマンティックキャリブレーション
- Authors: Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi,
- Abstract要約: 主観的知覚タスクでは、このアライメントはモデルトレーニングなしで実現できることを示す。
密結合した3つの段階からなる訓練不要なポストホック・コンセプト・ブートネックパイプラインを提案する。
- 参考スコア(独自算出の注目度): 17.430091762374744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning vision-language model (VLM) outputs with human preferences in domain-specific tasks typically requires fine-tuning or reinforcement learning, both of which demand labelled data and GPU compute. We show that for subjective perception tasks, this alignment can be achieved without any model training: VLMs are already strong concept extractors but poor decision calibrators, and the gap can be closed externally. We propose a training-free post-hoc concept-bottleneck pipeline consisting of three tightly coupled stages: concept mining, multi-agent structured scoring, and geometric calibration, unified by an end-to-end dimension optimization loop. Interpretable evaluation dimensions are mined from a handful of human annotations; an Observer-Debater-Judge chain extracts robust continuous concept scores from a frozen VLM; and locally-weighted ridge regression on a hybrid visual-semantic manifold calibrates these scores against human ratings. Applied to urban perception as UrbanAlign, the framework achieves 72.2% accuracy ($κ=0.45$) on Place Pulse 2.0 across six categories, outperforming the best supervised baseline by +15.1 pp and uncalibrated VLM scoring by +16.3 pp, with full dimension-level interpretability and zero model-weight modification.
- Abstract(参考訳): ドメイン固有のタスクにおいて人間の好みの視覚言語モデル(VLM)出力を調整するには、典型的には微調整または強化学習が必要である。
VLMは、すでに強力な概念抽出器であるが、決定キャリブレータが貧弱であり、そのギャップは外部で閉じることが可能である。
本稿では, エンド・ツー・エンド次元最適化ループで統一された, 概念マイニング, マルチエージェント構造化スコアリング, 幾何キャリブレーションという, 密結合された3つの段階からなる, トレーニング不要なポストホックの概念・ブートネックパイプラインを提案する。
解釈可能な評価次元は、少数の人間のアノテーションから抽出され、オブザーバ・デバタ・ジャッジ・チェーンは凍結されたVLMから頑健な連続的な概念スコアを抽出し、ハイブリッドビジュアル・セマンティック多様体上の局所的に重み付けられたリッジ回帰は、これらのスコアを人間の評価と比較する。
UrbanAlignのような都市認識に適用すると、このフレームワークはPlace Pulse 2.0において6つのカテゴリで72.2%の精度(κ=0.45$)を達成し、最高の教師付きベースラインを+15.1pp、非校正VLMスコアを+16.3ppで上回り、フル次元の解釈可能性とモデルウェイト修正をゼロにする。
関連論文リスト
- K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge [51.93484138861584]
視覚生成モデルの急速な開発により、よりスケーラブルで人間に合わせた評価方法の必要性が高まっている。
K-Sort Evalは,後方補正と動的マッチングを統合した信頼性と効率的なVLMに基づく評価フレームワークである。
実験の結果、K-Sort EvalはK-Sort Arenaと一致した評価結果を提供する。
論文 参考訳(メタデータ) (2026-02-10T05:07:46Z) - Multi-dimensional Preference Alignment by Conditioning Reward Itself [32.33870784484853]
Multi Reward Conditional DPOは、非絡み合いのBradley-Terry目標を導入することで、報酬競合を解決する。
安定1.5とSDXLの実験は、MCDPOがベンチマーク上で優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-12-11T02:44:31Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization [19.673388630963807]
統一統一性駆動型CBEフレームワークUniCBEを提案する。
AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearsonと地上の真実との相関は0.995を超えている。
新しいモデルが継続的に導入されるシナリオでは、UniCBEは評価コストの50%以上を節約できる。
論文 参考訳(メタデータ) (2025-02-17T05:28:12Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。