論文の概要: Identifiable Object Representations under Spatial Ambiguities
- arxiv url: http://arxiv.org/abs/2506.07806v1
- Date: Mon, 09 Jun 2025 14:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.997301
- Title: Identifiable Object Representations under Spatial Ambiguities
- Title(参考訳): 空間的あいまいさによる物体の識別
- Authors: Avinash Kori, Francesca Toni, Ben Glocker,
- Abstract要約: 我々は、ビュー固有のスロットを集約して*不変コンテンツ*情報をキャプチャする、新しい多視点確率的アプローチを導入する。
従来の単一視点法とは異なり、我々の手法は空間的曖昧さを解消し、同定可能性に関する理論的保証を提供し、*視点アノテーションを必要としない*。
- 参考スコア(独自算出の注目度): 26.278338079726563
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modular object-centric representations are essential for *human-like reasoning* but are challenging to obtain under spatial ambiguities, *e.g. due to occlusions and view ambiguities*. However, addressing challenges presents both theoretical and practical difficulties. We introduce a novel multi-view probabilistic approach that aggregates view-specific slots to capture *invariant content* information while simultaneously learning disentangled global *viewpoint-level* information. Unlike prior single-view methods, our approach resolves spatial ambiguities, provides theoretical guarantees for identifiability, and requires *no viewpoint annotations*. Extensive experiments on standard benchmarks and novel complex datasets validate our method's robustness and scalability.
- Abstract(参考訳): モジュラー対象中心表現は*人間的な推論には必須であるが、空間的あいまいさ、*e g の排他性やビューあいまいさにより得ることは困難である*。
しかし、問題に対処することは理論的にも実践的にも困難である。
本稿では、ビュー固有のスロットを集約して*不変コンテンツ*情報をキャプチャし、同時に不整合グローバル*視点レベル*情報を学習する、新しい多視点確率的アプローチを提案する。
従来の単一視点法とは異なり、我々の手法は空間的曖昧さを解消し、同定可能性に関する理論的保証を提供し、*視点アノテーションを必要としない*。
標準ベンチマークと新しい複雑なデータセットに関する大規模な実験は、我々のメソッドの堅牢性とスケーラビリティを検証する。
関連論文リスト
- A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation [0.0]
画像セグメンテーションの進歩は、ディープラーニングベースのコンピュータビジョンの幅広い範囲において重要な役割を担っている。
この文脈において不確かさの定量化が広く研究され、モデル無知(エピステミック不確実性)やデータあいまいさ(アラート不確実性)を表現し、不正な意思決定を防ぐことができる。
論文 参考訳(メタデータ) (2024-11-25T13:26:09Z) - Identifiable Object-Centric Representation Learning via Probabilistic Slot Attention [40.54463333840175]
既存の手法は、有望なオブジェクト結合能力を実証的に示すが、理論的な識別可能性の保証は比較的未発達のままである。
本稿では,オブジェクト中心のスロット表現に先行してアグリゲート混合を課す確率論的スロットアテンションアルゴリズムを提案する。
簡単な2次元データと高分解能画像データの両方を用いた理論的識別可能性の実証検証を行った。
論文 参考訳(メタデータ) (2024-06-11T10:40:54Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。