論文の概要: PhaseWin Search Framework Enable Efficient Object-Level Interpretation
- arxiv url: http://arxiv.org/abs/2511.10914v1
- Date: Fri, 14 Nov 2025 03:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.405864
- Title: PhaseWin Search Framework Enable Efficient Object-Level Interpretation
- Title(参考訳): 効率的なオブジェクトレベル解釈を可能にする PhaseWin Search Framework
- Authors: Zihan Gu, Ruoyu Chen, Junchi Zhang, Yue Hu, Hua Zhang, Xiaochun Cao,
- Abstract要約: PhaseWinは、忠実な地域帰属のための位相ウィンドウ探索アルゴリズムである。
PhaseWinは、従来の2次コストのグリーディ選択を、粗い粗い検索に置き換える。
計算予算の20%しか使わず、95%以上の欲求帰属忠実を達成している。
- 参考スコア(独自算出の注目度): 48.30293957298944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attribution is essential for interpreting object-level foundation models. Recent methods based on submodular subset selection have achieved high faithfulness, but their efficiency limitations hinder practical deployment in real-world scenarios. To address this, we propose PhaseWin, a novel phase-window search algorithm that enables faithful region attribution with near-linear complexity. PhaseWin replaces traditional quadratic-cost greedy selection with a phased coarse-to-fine search, combining adaptive pruning, windowed fine-grained selection, and dynamic supervision mechanisms to closely approximate greedy behavior while dramatically reducing model evaluations. Theoretically, PhaseWin retains near-greedy approximation guarantees under mild monotone submodular assumptions. Empirically, PhaseWin achieves over 95% of greedy attribution faithfulness using only 20% of the computational budget, and consistently outperforms other attribution baselines across object detection and visual grounding tasks with Grounding DINO and Florence-2. PhaseWin establishes a new state of the art in scalable, high-faithfulness attribution for object-level multimodal models.
- Abstract(参考訳): 属性は、オブジェクトレベルの基礎モデルの解釈に不可欠である。
部分モジュラー部分集合選択に基づく最近の手法は高い忠実性を実現しているが、それらの効率の限界は現実のシナリオにおける実践的な展開を妨げている。
そこで本稿では, 忠実な地域帰属をほぼ線形複雑にできる新しい位相ウィンドウ探索アルゴリズムであるPyseWinを提案する。
PhaseWinは、従来の二次的コストのグリーディ選択を、適応的なプルーニング、ウィンドウ化されたきめ細かい選択、動的監視機構を組み合わせて、モデル評価を劇的に削減しながら、より正確に近似したグリーディ行動に置き換える。
理論的には、フェイズウィンドは穏やかな単調な部分モジュラー仮定の下で近似の近似の近似を保っている。
実証的に、PationWinは計算予算の20%しか使わず、95%以上のgreedy属性の忠実さを達成し、グラウンディングDINOとFlorence-2によるオブジェクト検出と視覚的接地タスクにおいて、他の属性のベースラインを一貫して上回ります。
PhaseWinは、オブジェクトレベルのマルチモーダルモデルに対する、スケーラブルで高信頼度な属性の新たな最先端を確立する。
関連論文リスト
- Tree Reward-Aligned Search for TReASURe in Masked Diffusion Language Models [13.433506313486701]
ツリー検索は、生成モデルとタスク固有の報酬をテスト時に整合させる強力なフレームワークとして登場した。
これらの問題に対処する木探索テスト時間アライメント手法であるTReASUReを提案する。
TReASUReは、パープレキシティ、言語受容性、感情と毒性の制御に関する最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-27T06:22:45Z) - SPREAD: Sampling-based Pareto front Refinement via Efficient Adaptive Diffusion [0.8594140167290097]
SPREADは拡散確率モデル(DDPM)に基づく生成フレームワークである
決定空間からサンプリングされた点上の条件拡散過程を学習する。
適応的多重勾配降下インスパイアされた更新を高速収束に利用するサンプリングスキームにより、候補を洗練する。
論文 参考訳(メタデータ) (2025-09-25T12:09:37Z) - Aligning Latent Spaces with Flow Priors [72.24305287508474]
本稿では,学習可能な潜在空間を任意の目標分布に整合させるための新しいフレームワークを提案する。
特に,提案手法は計算コストの高い確率評価を排除し,最適化時のODE解決を回避する。
論文 参考訳(メタデータ) (2025-06-05T16:59:53Z) - Reducing Semantic Ambiguity In Domain Adaptive Semantic Segmentation Via Probabilistic Prototypical Pixel Contrast [7.092718945468069]
ドメイン適応は、ソースとターゲットドメイン間のドメインシフトに起因するターゲットドメインのモデル劣化を低減することを目的としています。
確率的原型画素コントラスト(probabilistic proto-typeal pixel contrast、PPPC)は、各画素の埋め込みを確率としてモデル化する普遍的な適応フレームワークである。
PPPCは、画素レベルでの曖昧さに対処するだけでなく、識別的表現をもたらすだけでなく、合成からリアルタイム、および日毎の適応タスクにおいて大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-09-27T08:25:03Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。
そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。
実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - On the Convergence of Heterogeneous Federated Learning with Arbitrary
Adaptive Online Model Pruning [15.300983585090794]
任意適応型オンラインモデルプルーニングを用いた異種FLアルゴリズムの一元化フレームワークを提案する。
特に、ある十分な条件下では、これらのアルゴリズムは一般的なスムーズなコスト関数に対して標準FLの定常点に収束する。
コンバージェンスに影響を与える2つの要因として,プルーニング誘導雑音と最小カバレッジ指数を照らす。
論文 参考訳(メタデータ) (2022-01-27T20:43:38Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。