Fugu-MT 論文翻訳(概要): LSM: Learning Subspace Minimization for Low-level Vision

論文の概要: LSM: Learning Subspace Minimization for Low-level Vision

arxiv url: http://arxiv.org/abs/2004.09197v1
Date: Mon, 20 Apr 2020 10:49:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-11 18:46:47.899202
Title: LSM: Learning Subspace Minimization for Low-level Vision
Title（参考訳）: LSM:低レベルビジョンのための学習サブスペース最小化
Authors: Chengzhou Tang, Lu Yuan and Ping Tan
Abstract要約: 我々は、正規化項を学習可能な部分空間制約に置き換え、データ項をドメイン知識を活用するために保存する。この学習サブスペース最小化(LSM)フレームワークは、多くの低レベル視覚タスクのネットワーク構造とパラメータを統一する。インタラクティブな画像セグメンテーション、ビデオセグメンテーション、ステレオマッチング、オプティカルフローを含む4つの低レベルタスクについてLSMフレームワークを実証し、様々なデータセット上でネットワークを検証した。
参考スコア（独自算出の注目度）: 78.27774638569218
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the energy minimization problem in low-level vision tasks from a novel perspective. We replace the heuristic regularization term with a learnable subspace constraint, and preserve the data term to exploit domain knowledge derived from the first principle of a task. This learning subspace minimization (LSM) framework unifies the network structures and the parameters for many low-level vision tasks, which allows us to train a single network for multiple tasks simultaneously with completely shared parameters, and even generalizes the trained network to an unseen task as long as its data term can be formulated. We demonstrate our LSM framework on four low-level tasks including interactive image segmentation, video segmentation, stereo matching, and optical flow, and validate the network on various datasets. The experiments show that the proposed LSM generates state-of-the-art results with smaller model size, faster training convergence, and real-time inference.
Abstract（参考訳）: 低レベルビジョンタスクにおけるエネルギー最小化問題について,新しい視点から検討する。ヒューリスティック正規化項を学習可能な部分空間制約に置き換え、タスクの第一原理に由来するドメイン知識を利用するためにデータ項を保存する。この学習サブスペース最小化(LSM)フレームワークは、多くの低レベル視覚タスクのネットワーク構造とパラメータを統一し、完全に共有されたパラメータで同時に複数のタスクに対して単一のネットワークをトレーニングし、データ項を定式化できる限り、トレーニングされたネットワークを見えないタスクに一般化する。本稿では,インタラクティブな画像セグメンテーション,映像セグメンテーション,ステレオマッチング,オプティカルフローを含む4つの低レベルタスクに対するlsmフレームワークを示し,各種データセット上でネットワークを検証する。実験の結果,LSMはモデルサイズが小さく,トレーニング収束が速く,リアルタイムの推論が可能であった。

関連論文リスト

LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。 LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文参考訳（メタデータ） (2024-10-22T16:26:05Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-04T15:22:54Z)
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。 VLMの未調査能力の1つは、視覚空間計画である。本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-02T00:24:01Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Negotiated Representations to Prevent Forgetting in Machine Learning Applications [0.0]
破滅的な忘れは、機械学習の分野で重要な課題である。本稿では,機械学習アプリケーションにおける破滅的忘れを防止する新しい方法を提案する。
論文参考訳（メタデータ） (2023-11-30T22:43:50Z)
Dynamic Neural Network for Multi-Task Learning Searching across Diverse Network Topologies [14.574399133024594]
多様なグラフトポロジを持つ複数のタスクに対して最適化された構造を探索する新しいMTLフレームワークを提案する。我々は、トポロジ的に多様なタスク適応構造を構築するために、読み出し/読み出し層を備えたDAGベースの制限付き中央ネットワークを設計する。
論文参考訳（メタデータ） (2023-03-13T05:01:50Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文参考訳（メタデータ） (2021-09-15T21:19:11Z)
UniNet: A Unified Scene Understanding Network and Exploring Multi-Task Relationships through the Lens of Adversarial Attacks [1.1470070927586016]
単一のタスクビジョンネットワークは、シーンのいくつかの側面に基づいてのみ情報を抽出する。マルチタスク学習(MTL)では、単一のタスクが共同で学習され、タスクが情報を共有する機会を提供する。我々は,重要な視覚タスクを正確かつ効率的に推測する統合されたシーン理解ネットワークUniNetを開発した。
論文参考訳（メタデータ） (2021-08-10T11:00:56Z)
Deep Active Shape Model for Face Alignment and Pose Estimation [0.2148535041822524]
アクティブシェイプモデル(Active Shape Model、ASM)は、ターゲット構造を表すオブジェクトシェイプの統計モデルです。本稿では,顔のアライメントと頭部のポーズ推定のためにASMによって正規化された損失関数を備えた,軽量な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
論文参考訳（メタデータ） (2021-02-27T03:46:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。