論文の概要: Uncertainty-DTW for Sequences and Visual Tokens
- arxiv url: http://arxiv.org/abs/2605.25110v1
- Date: Sun, 24 May 2026 14:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.83267
- Title: Uncertainty-DTW for Sequences and Visual Tokens
- Title(参考訳): シーケンスと視覚トークンの不確実性DTW
- Authors: Lei Wang, Syuan-Hao Li, Yongsheng Gao, Piotr Koniusz,
- Abstract要約: 本研究では,不確実性を考慮した対応をモデル化し,アライメントパスに沿って構造化されたマッチングを行う確率的フレームワークである不確実性認識アライメントを導入する。
我々は、このフレームワークを時間列からトークン化された視覚表現に一般化し、視覚トークンの集合に対する構造化マッチングを可能にする。
これらの知見は、構造化データから学習するための一般的な、堅牢で解釈可能なフレームワークとして、不確実性を考慮したアライメントを確立する。
- 参考スコア(独自算出の注目度): 43.798398689900075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning structured data is a fundamental problem in computer vision and machine learning, underlying tasks such as time series analysis, human action recognition, and visual representation learning. Existing alignment methods, including Dynamic Time Warping (DTW) and its differentiable variants, rely on deterministic similarity measures and are therefore sensitive to heterogeneous and noisy features. In this work, we introduce uncertainty-aware alignment, a probabilistic framework that models pairwise correspondences with heteroscedastic uncertainty and performs structured matching along alignment paths. Our formulation, uncertainty-DTW (uDTW), assigns each correspondence a Normal distribution and parametrizes each alignment path by a Maximum Likelihood Estimate objective consisting of (i) a precision-weighted matching term that suppresses unreliable features, and (ii) a log-variance regularization that prevents degenerate solutions. This yields a probabilistic alignment mechanism that is robust to noise and interpretable, as uncertainty directly reflects the reliability of matches. We further generalize this framework from temporal sequences to tokenized visual representations, enabling structured matching over sets of visual tokens. The learned uncertainty can be interpreted as a reverse-attention: semantically relevant regions exhibit low uncertainty and dominate the alignment, while ambiguous/noisy regions have high uncertainty. This provides a connection between alignment, attention, and uncertainty modeling. We evaluate the proposed framework across diverse domains. The results demonstrate consistent improvements over state-of-the-art methods and show that learned uncertainty correlates with semantic importance. These findings establish uncertainty-aware alignment as a general, robust, and interpretable framework for learning from structured data.
- Abstract(参考訳): 構造化データのアライメントは、時系列分析、ヒューマンアクション認識、視覚表現学習などの基本的なタスクである、コンピュータビジョンと機械学習の基本的な問題である。
動的時間ワープ(DTW)とその微分可能な変種を含む既存のアライメント手法は、決定論的類似度尺度に依存しており、従って不均一でノイズの多い特徴に敏感である。
本研究では,不確実性を考慮した相互対応をモデル化し,アライメントパスに沿って構造化されたマッチングを行う確率的フレームワークである不確実性認識アライメントを導入する。
我々の定式化である不確実性DTW (uDTW) は、各対応に正規分布を割り当て、各アライメントパスを最大同値推定目標によりパラメータ化する。
一 信頼できない特徴を抑える精度重み合わせ用語
(ii)解の退化を防ぐ対数分散正則化。
これにより、確率的アライメント機構はノイズに対して堅牢であり、不確実性は一致の信頼性を直接反映するので解釈可能である。
さらに、このフレームワークを時間列からトークン化された視覚表現に一般化し、視覚トークンの集合に対する構造化マッチングを可能にする。
学習された不確実性は、逆アテンションとして解釈できる:意味的に関連のある領域は、低い不確実性を示し、アライメントを支配し、あいまい/ノイズの多い領域は高い不確実性を持つ。
これにより、アライメント、注意、不確実性モデリングの関連性が得られる。
提案するフレームワークを多種多様なドメインで評価する。
その結果、最先端手法に対する一貫した改善が示され、学習の不確実性は意味的重要性と相関していることが示された。
これらの知見は、構造化データから学習するための一般的な、堅牢で解釈可能なフレームワークとして、不確実性を考慮したアライメントを確立する。
関連論文リスト
- Sensitivity Uncertainty Alignment in Large Language Models [0.0]
逆入力およびあいまい入力下での大規模言語モデルの故障を解析するためのフレームワークを提案する。
我々はスカラースコア SUA_theta(x) を定義し、分布感度と予測エントロピーの差を捉える。
我々は,一貫性の正則化とエントロピーアライメントを組み合わせたトレーニング手法SUA-TRと,より安全な推論のための禁制ルールを導入する。
論文 参考訳(メタデータ) (2026-04-21T17:53:12Z) - Beyond Predictive Uncertainty: Reliable Representation Learning with Structural Constraints [0.3948325938742681]
信頼性は、学習した表現そのものの第一級の性質と見なされるべきである。
本稿では,表現レベルの不確実性を明示的にモデル化する信頼性のある表現学習のための原則的フレームワークを提案する。
提案手法では,不確実性を考慮した正規化が直接表現空間に導入され,予測的だけでなく,安定的で,校正的であり,ノイズや構造的摂動に対して頑健な表現が奨励される。
論文 参考訳(メタデータ) (2026-01-22T18:19:52Z) - Heterogeneous Uncertainty-Guided Composed Image Retrieval with Fine-Grained Probabilistic Learning [49.28548464288051]
Composed Image Retrieval (CIR)は、参照画像と修正テキストを組み合わせることで、画像検索を可能にする。
CIR三重項の内在ノイズは内在的不確実性を引き起こし、モデルの堅牢性を脅かす。
本稿では,これらの制約を克服するための不確実性誘導(HUG)パラダイムを提案する。
論文 参考訳(メタデータ) (2026-01-16T16:05:49Z) - Probabilistic Modeling of Disparity Uncertainty for Robust and Efficient Stereo Matching [61.73532883992135]
本稿では,新しい不確実性を考慮したステレオマッチングフレームワークを提案する。
我々はベイズリスクを不確実性の測定として採用し、データを別々に見積もり、不確実性をモデル化する。
論文 参考訳(メタデータ) (2024-12-24T23:28:20Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Probabilistic computation and uncertainty quantification with emerging
covariance [11.79594512851008]
堅牢で解釈可能なセキュアなAIシステムを構築するには、確率論的視点の下で不確実性を定量化し、表現する必要がある。
確率計算は、ほとんどの従来の人工ニューラルネットワークにとって重要な課題である。
論文 参考訳(メタデータ) (2023-05-30T17:55:29Z) - Acquisition-invariant brain MRI segmentation with informative
uncertainties [3.46329153611365]
ポストホックな多地点補正法は存在するが、現実のシナリオではしばしば成立しない強い仮定を持つ。
この研究は、セグメンテーションタスクの文脈において、獲得の物理学に堅牢になるようなアルゴリズムを実証している。
提案手法は, ホールドアウトデータセットの完全化, セグメンテーション品質の維持だけでなく, サイト固有のシーケンス選択も考慮しながら, 一般化できることを実証する。
論文 参考訳(メタデータ) (2021-11-07T13:58:04Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。