論文の概要: How Many Visual Levers Drive Urban Perception? Interventional Counterfactuals via Multiple Localised Edits
- arxiv url: http://arxiv.org/abs/2604.22103v1
- Date: Thu, 23 Apr 2026 22:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.28523
- Title: How Many Visual Levers Drive Urban Perception? Interventional Counterfactuals via Multiple Localised Edits
- Title(参考訳): 視覚障害者は都市認識を何人運転するか? 複数局所編集によるインターベンショナル・カウンティファクト
- Authors: Jason Tang, Stephen Law,
- Abstract要約: 本稿では, シーンレベルの説明可能性について, 構造化されたデファクト編集に対するバウンダリ検索として再放送する, レバーベースの介入対応フレームワークを提案する。
このフレームワークは、5つの都市から50シーンにわたるパイロットテストで、プロキシベースの方向性パターンと、プロンプトのみの編集の下での実践的な失敗分類を明らかにしている。
- 参考スコア(独自算出の注目度): 2.005299372367689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Street-view perception models predict subjective attributes such as safety at scale, but remain correlational: they do not identify which localized visual changes would plausibly shift human judgement for a specific scene. We propose a lever-based interventional counterfactual framework that recasts scene-level explainability as a bounded search over structured counterfactual edits. Each lever specifies a semantic concept, spatial support, intervention direction, and constrained edit template. Candidate edits are generated through prompt-conditioned image editing and retained only if they satisfy validity checks for same-place preservation, locality, realism, and plausibility. In a pilot across 50 scenes from five cities, the framework reveals preliminary proxy-based directional patterns and a practical failure taxonomy under prompt-only editing, with Mobility Infrastructure and Physical Maintenance showing the largest auxiliary safety shifts. Human pairwise judgements remain the ground-truth endpoint for future validation.
- Abstract(参考訳): ストリートビュー知覚モデルは、大規模な安全性などの主観的特性を予測するが、相関性は保たない。
本稿では, シーンレベルの説明可能性について, 構造化されたデファクト編集に対するバウンダリ検索として再放送する, レバーベースの介入対応フレームワークを提案する。
各レバーは意味論的概念、空間的サポート、介入方向、制約付き編集テンプレートを指定する。
候補編集は、即時条件付き画像編集を通じて生成され、同位置保存、局所性、リアリズム、および可視性に対する妥当性チェックを満たす場合にのみ保持される。
このフレームワークは、5つの都市から50シーンにわたるパイロットテストで、プロキシベースの方向性パターンと、プロンプトのみの編集の下での実践的な失敗分類を明らかにし、モビリティインフラストラクチャと物理的メンテナンスは、最大の補助的安全性シフトを示している。
人間のペアワイドな判断は、将来の検証の土台となる。
関連論文リスト
- DSCA: Dynamic Subspace Concept Alignment for Lifelong VLM Editing [1.6830191160943109]
生涯の編集は難しい作業であり、これまで学んだ概念を乱す傾向がある。
現在の手法では、知識を構造的に分離するのではなく、最適化によって編集をアルゴリズムで制御している。
本稿では,この制限を緩和する動的部分空間概念アライメント(DSCA)を提案する。
本手法は,1回の編集で98%,1000回の編集後に95%以上,幻覚を3~5%,連続的なチューニングチューニングベンチマークで最高の後方転送(BWT)スコアが得られた。
論文 参考訳(メタデータ) (2026-04-09T08:25:54Z) - InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning [60.799998743918955]
複雑な現実世界のシーンにおける微細な画像編集のためのテキストビジョンインターリーブド・チェーン・オブ・グラウンド推論フレームワークを提案する。
InterCoGの重要な洞察は、まずテキスト内でのみオブジェクト位置推論を実行することである。
また,マルチモーダル・グラウンド・ライティング・アライメント・アライメントとマルチモーダル・グラウンド・ライティング・アライメント・アライメントの2つの補助的トレーニング・モジュールを提案する。
論文 参考訳(メタデータ) (2026-03-02T08:13:16Z) - Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding [4.918510966192794]
本稿では,教師付き学習モデルとオープンボキャブラリ視覚モデルの比較評価を行った。
FloodNet+、RescueNet、DFire、LADDなど、複数のデータセットにわたるセマンティックセグメンテーションとオブジェクト検出に重点を置いています。
評価されたベンチマークでもっとも注目すべき点は、教師付きトレーニングが最も信頼できるアプローチであることだ。
論文 参考訳(メタデータ) (2026-03-01T23:50:08Z) - HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models [39.753109625930506]
HulluEditはシングルパスで参照不要な介入フレームワークである。
モデルの隠された状態をサブスペースに分解する。
これにより視覚的接地を介さずに幻覚パターンを選択的に抑制することができる。
論文 参考訳(メタデータ) (2026-02-26T08:08:25Z) - Self-Supervised 3D Scene Flow Estimation and Motion Prediction using
Local Rigidity Prior [100.98123802027847]
点群における3次元シーンフロー推定とクラス非依存動作予測について検討した。
我々は,一方向の剛性動作推定により,自己教師型学習のための擬似シーンフローラベルを生成する。
本手法は,自己監督型シーンフロー学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-17T14:06:55Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。