Fugu-MT 論文翻訳(概要): Discrete Latent Perspective Learning for Segmentation and Detection

論文の概要: Discrete Latent Perspective Learning for Segmentation and Detection

arxiv url: http://arxiv.org/abs/2406.10475v1
Date: Sat, 15 Jun 2024 02:40:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 00:22:43.636235
Title: Discrete Latent Perspective Learning for Segmentation and Detection
Title（参考訳）: 偏差検出のための離散潜在視点学習
Authors: Deyi Ji, Feng Zhao, Lanyun Zhu, Wenwei Jin, Hongtao Lu, Jieping Ye,
Abstract要約: 本稿では,多視点融合学習のための新しいフレームワークであるDLPLを提案する。 DLPLは、様々なシナリオやビジョンタスクに適用可能な、普遍的な視点学習フレームワークである。
参考スコア（独自算出の注目度）: 40.9258359611346
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we address the challenge of Perspective-Invariant Learning in machine learning and computer vision, which involves enabling a network to understand images from varying perspectives to achieve consistent semantic interpretation. While standard approaches rely on the labor-intensive collection of multi-view images or limited data augmentation techniques, we propose a novel framework, Discrete Latent Perspective Learning (DLPL), for latent multi-perspective fusion learning using conventional single-view images. DLPL comprises three main modules: Perspective Discrete Decomposition (PDD), Perspective Homography Transformation (PHT), and Perspective Invariant Attention (PIA), which work together to discretize visual features, transform perspectives, and fuse multi-perspective semantic information, respectively. DLPL is a universal perspective learning framework applicable to a variety of scenarios and vision tasks. Extensive experiments demonstrate that DLPL significantly enhances the network's capacity to depict images across diverse scenarios (daily photos, UAV, auto-driving) and tasks (detection, segmentation).
Abstract（参考訳）: 本稿では、機械学習とコンピュータビジョンにおけるパースペクティブ不変学習の課題に対処し、ネットワークが様々な視点から画像を理解し、一貫した意味的解釈を達成できるようにする。標準的なアプローチは,多視点画像の労働集約化や限られたデータ拡張技術に頼っているが,従来の一視点画像を用いた潜在多視点融合学習のための新しいフレームワークであるDLPL(Disdisrete Latent Perspective Learning)を提案する。 DLPLは、パースペクティブ離散分解(PDD)、パースペクティブホモグラフィ変換(PHT)、パースペクティブ不変注意(PIA)の3つの主要なモジュールから構成される。 DLPLは、様々なシナリオやビジョンタスクに適用可能な、普遍的な視点学習フレームワークである。大規模な実験により、DLPLは、さまざまなシナリオ(日光写真、UAV、自動運転)とタスク(検出、セグメンテーション)にまたがるイメージを描写する能力を大幅に向上することが示された。

関連論文リスト

Unsupervised Multiview Contrastive Language-Image Joint Learning with Pseudo-Labeled Prompts Via Vision-Language Model for 3D/4D Facial Expression Recognition [1.03341388090561]
3D/4Dデータから顔感情の教師なしコントラクティブなマルチビュー表現学習のための視覚言語モデルであるMultiviewVLMを紹介した。我々のアーキテクチャは、生成したテキストプロンプトから派生した擬似ラベルを統合し、感情的意味論の暗黙的なアライメントを導く。我々は、新しいマルチビューコントラスト学習戦略により、モデルの識別可能性をさらに強化する。
論文参考訳（メタデータ） (2025-05-14T12:31:21Z)
Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文参考訳（メタデータ） (2025-04-28T19:02:18Z)
Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation [35.50570174431677]
本稿では,WSI(Whole Slide Images)を利用して複数解像度でヒストロジパッチを抽出する新しいマルチレゾリューションパラダイムを提案する。複数の解像度での視覚的テキストアライメントと、より効果的なテキスト誘導視覚表現を確立するためのクロスレゾリューションアライメントを導入する。本モデルは,新しい損失関数に支えられ,特徴表現を豊かにし,識別能力を向上させ,様々な解像度での一般化を促進することを目的としている。
論文参考訳（メタデータ） (2025-04-26T08:44:04Z)
A Survey of Representation Learning, Optimization Strategies, and Applications for Omnidirectional Vision [5.208806195877025]
近年、顧客レベルの360度カメラが利用可能になったことにより、全方向視界がより普及している。ディープラーニング(DL)の進歩は、その研究と応用を大きく引き起こした。本稿では,全方位視における最近のDLの進歩について,体系的かつ包括的なレビューと分析を行った。
論文参考訳（メタデータ） (2025-02-11T08:05:11Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing [150.0380447353081]
本稿では,静的画像とダイナミックビデオの両方の包括的理解,セグメンテーション,クラスタ化のために設計された,ユニバーサルピクセルレベルのビジョンLLMであるVITRONを紹介する。 LLMの上に構築されているVITRONは、画像、ビデオ、ピクセルレベルの地域視覚のエンコーダをモジュール内に組み込んでおり、最先端のビジュアルスペシャリストをバックエンドとして採用している。
論文参考訳（メタデータ） (2024-10-08T08:39:04Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
Matching Multiple Perspectives for Efficient Representation Learning [0.0]
本稿では,自己教師型学習とマルチパースペクティブマッチング技術を組み合わせたアプローチを提案する。我々は,同一オブジェクトの複数ビューと多種多様な自己教師付き事前学習アルゴリズムを組み合わせることで,オブジェクト分類性能が向上することを示す。
論文参考訳（メタデータ） (2022-08-16T10:33:13Z)
Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文参考訳（メタデータ） (2022-06-14T12:47:47Z)
KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation [42.01427946204401]
自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
論文参考訳（メタデータ） (2021-09-22T03:38:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。