Fugu-MT 論文翻訳(概要): PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus

論文の概要: PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus

arxiv url: http://arxiv.org/abs/2405.16094v2
Date: Mon, 3 Jun 2024 08:27:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 14:09:37.216382
Title: PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus
Title（参考訳）: PLUG: 基盤モデルと階層的焦点によるアモーダルセグメンテーションの再検討
Authors: Zhaochen Liu, Limeng Qiao, Xiangxiang Chu, Tingting Jiang,
Abstract要約: SAMに基づく最初のアモーダルセグメンテーション手法であるPLUGを提案する。地域レベルでは、可視・隠蔽領域の関連と区分により、相互の混乱を避けるために、異なる枝の焦点として、イモダル領域とアモーダル領域が割り当てられる。ポイントレベルでは、不確実性の概念を導入し、曖昧な点を特定し、焦点を合わせる際にモデルを明確に支援する。
参考スコア（独自算出の注目度）: 19.25678147515461
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aiming to predict the complete shapes of partially occluded objects, amodal segmentation is an important step towards visual intelligence. With crucial significance, practical prior knowledge derives from sufficient training, while limited amodal annotations pose challenges to achieve better performance. To tackle this problem, utilizing the mighty priors accumulated in the foundation model, we propose the first SAM-based amodal segmentation approach, PLUG. Methodologically, a novel framework with hierarchical focus is presented to better adapt the task characteristics and unleash the potential capabilities of SAM. In the region level, due to the association and division in visible and occluded areas, inmodal and amodal regions are assigned as the focuses of distinct branches to avoid mutual disturbance. In the point level, we introduce the concept of uncertainty to explicitly assist the model in identifying and focusing on ambiguous points. Guided by the uncertainty map, a computation-economic point loss is applied to improve the accuracy of predicted boundaries. Experiments are conducted on several prominent datasets, and the results show that our proposed method outperforms existing methods with large margins. Even with fewer total parameters, our method still exhibits remarkable advantages.
Abstract（参考訳）: アモーダルセグメンテーションは、部分的に隠された物体の完全な形状を予測するために、視覚知性への重要なステップである。重要なこととして、実践的な事前知識は十分なトレーニングに由来するが、限定的なアモーダルアノテーションはより良いパフォーマンスを達成するための課題を提起する。この問題に対処するため,基礎モデルに蓄積される強大な先行性を利用して,SAMに基づく最初のアモーダルセグメンテーション手法であるPLUGを提案する。手法として,タスク特性をよりよく適応し,SAMの潜在能力を解き放つために,階層的な焦点を持つ新しいフレームワークを提案する。地域レベルでは、可視・隠蔽領域の関連と区分により、相互の混乱を避けるため、別個の枝の焦点として、イモーダル領域とアモーダル領域が割り当てられる。ポイントレベルでは、不確実性の概念を導入し、曖昧な点を特定し、焦点を合わせる際にモデルを明確に支援する。不確実性マップによって導かれ、予測された境界の精度を向上させるために計算-経済的な点損失が適用される。実験はいくつかの顕著なデータセットで実施され,提案手法は既存の手法よりも大きなマージンを持つことを示す。総パラメータが少なくても,本手法は依然として顕著な優位性を示している。

関連論文リスト

CogRail: Benchmarking VLMs in Cognitive Intrusion Perception for Intelligent Railway Transportation Systems [29.385460126069386]
我々は、キュレートされたデータセットと認知駆動型質問応答アノテーションを統合した新しいベンチマーク、CogRailを紹介した。このベンチマークに基づいて、我々は最先端のビジュアル言語モデルの体系的な評価を行う。本稿では,3つの中核的タスク,位置知覚,移動予測,脅威分析を統合したファインチューニングフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-14T16:36:26Z)
Towards Integrating Uncertainty for Domain-Agnostic Segmentation [44.239195075597536]
Segment Anything Model (SAM) ファミリーのようなセグメンテーションの基本モデルは、ゼロショット性能が強いが、シフトまたは限定知識領域では弱いままである。本研究は、定量化の不確実性がそのような課題を緩和し、ドメインに依存しない方法でモデル一般化可能性を高めることができるかどうかを考察する。
論文参考訳（メタデータ） (2025-12-29T12:46:21Z)
Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文参考訳（メタデータ） (2025-08-07T02:51:10Z)
MIRRAMS: Towards Training Models Robust to Missingness Distribution Shifts [2.5357049657770516]
実世界のデータ分析では、トレーニングとテスト入力データセット間の分散シフトが頻繁に発生する。本稿では,不足度分布の変化に対処する新しいディープラーニングフレームワークを提案する。提案手法は,データの欠落を伴わずに最先端の性能を実現し,半教師付き学習タスクに自然に拡張することができる。
論文参考訳（メタデータ） (2025-07-11T03:03:30Z)
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文参考訳（メタデータ） (2025-06-11T17:41:50Z)
How Far Are We from Predicting Missing Modalities with Foundation Models? [31.853781353441242]
現在の基礎モデルは、(i)利用可能なモダリティからのきめ細かい意味的抽出と(ii)生成されたモダリティの堅牢な検証の2つの重要な側面で不足することが多い。このフレームワークは、入力コンテキストに基づいてモダリティを考慮したマイニング戦略を動的に定式化し、よりリッチで差別的な意味的特徴の抽出を容易にする。実験の結果,画像予測の欠落に対するFIDを少なくとも14%削減し,テキスト予測の欠落に対してMERを少なくとも10%削減した。
論文参考訳（メタデータ） (2025-06-04T03:22:44Z)
Confidence-Aware Self-Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [15.205192581534973]
マルチモーダル感情分析は、マルチモーダルデータを通して人間の感情を理解することを目的としている。既存のモダリティの欠如を扱う方法は、データ再構成や共通部分空間投影に基づいている。マルチモーダルな確率的埋め込みを効果的に組み込んだ信頼性認識型自己蒸留(CASD)戦略を提案する。
論文参考訳（メタデータ） (2025-06-02T09:48:41Z)
A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation [0.0]
画像セグメンテーションの進歩は、ディープラーニングベースのコンピュータビジョンの広い範囲において重要な役割を果たす。この文脈において不確かさの定量化が広く研究され、モデル無知(認識の不確実性)やデータ曖昧さ(アラート的不確実性)を表現し、不正な意思決定を防ぐことができる。この研究は、分野の進歩を左右する不確実性の基本概念と様々なタスクへの応用について議論することで、確率的セグメンテーションの包括的概要を提供する。
論文参考訳（メタデータ） (2024-11-25T13:26:09Z)
Minimizing Embedding Distortion for Robust Out-of-Distribution Performance [1.0923877073891446]
我々は、タスクの微調整プロセスに組み込むことができる「類似性損失」と呼ばれる新しいアプローチを導入する。衛星画像における画像分類と顔認識の2つの課題について検討した。
論文参考訳（メタデータ） (2024-09-11T19:22:52Z)
Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文参考訳（メタデータ） (2024-06-02T15:33:46Z)
Improving Point-based Crowd Counting and Localization Based on Auxiliary Point Guidance [59.71186244597394]
本稿では,提案手法における提案対象マッチングの安定化に有効な手法を提案する。本稿では,提案手法の選択と最適化のために,Auxiliary Point Guidance (APG)を提案する。また,多様な群集シナリオにおける適応的特徴抽出を可能にするために,IFI(Implicit Feature Interpolation)を開発した。
論文参考訳（メタデータ） (2024-05-17T07:23:27Z)
A Generalization Theory of Cross-Modality Distillation with Contrastive Learning [49.35244441141323]
クロスモダリティ蒸留は、限られた知識を含むデータモダリティにとって重要なトピックである。コントラスト学習に基づくクロスモーダルコントラスト蒸留(CMCD)の一般的な枠組みを定式化する。我々のアルゴリズムは、様々なモダリティやタスクに対して、2-3%のマージンで既存のアルゴリズムを一貫して上回ります。
論文参考訳（メタデータ） (2024-05-06T11:05:13Z)
DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal Category-level Pose Estimation [20.676510832922016]
本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
論文参考訳（メタデータ） (2024-02-20T01:48:33Z)
Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文参考訳（メタデータ） (2023-08-10T08:43:20Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
A Deep Reinforcement Learning Approach to Marginalized Importance Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文参考訳（メタデータ） (2021-06-12T20:21:38Z)
An Information Bottleneck Approach for Controlling Conciseness in Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文参考訳（メタデータ） (2020-05-01T23:26:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。