論文の概要: From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2506.20279v1
- Date: Wed, 25 Jun 2025 09:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.682071
- Title: From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios
- Title(参考訳): 理想から現実へ:実世界のシナリオにおける統一的でデータ効率の良いDense予測
- Authors: Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo,
- Abstract要約: DenseDiTを提案する。これは、生成モデルの視覚的優先順位を利用して、多様な実世界の密集予測タスクを実行する。
DenseDiTは、ベースラインの0.01%未満のトレーニングデータを使用して優れた結果を得る。
- 参考スコア(独自算出の注目度): 12.06521067086988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense prediction tasks hold significant importance of computer vision, aiming to learn pixel-wise annotated label for an input image. Despite advances in this field, existing methods primarily focus on idealized conditions, with limited generalization to real-world scenarios and facing the challenging scarcity of real-world data. To systematically study this problem, we first introduce DenseWorld, a benchmark spanning a broad set of 25 dense prediction tasks that correspond to urgent real-world applications, featuring unified evaluation across tasks. Then, we propose DenseDiT, which maximally exploits generative models' visual priors to perform diverse real-world dense prediction tasks through a unified strategy. DenseDiT combines a parameter-reuse mechanism and two lightweight branches that adaptively integrate multi-scale context, working with less than 0.1% additional parameters. Evaluations on DenseWorld reveal significant performance drops in existing general and specialized baselines, highlighting their limited real-world generalization. In contrast, DenseDiT achieves superior results using less than 0.01% training data of baselines, underscoring its practical value for real-world deployment. Our data, and checkpoints and codes are available at https://xcltql666.github.io/DenseDiTProj
- Abstract(参考訳): ディエンス予測タスクは、入力画像のピクセル単位のアノテートラベルを学習することを目的として、コンピュータビジョンにおいて重要な重要性を持つ。
この分野での進歩にもかかわらず、既存の手法は主に理想化された条件に焦点を当てており、現実のシナリオへの限定的な一般化と現実のデータの難しさに直面している。
この問題を体系的に研究するために、我々はまずDenseWorldを紹介した。DenseWorldは、緊急な現実世界のアプリケーションに対応する25の高密度な予測タスクの幅広いセットにまたがるベンチマークであり、タスク間で統一的な評価が特徴である。
そこで,DenseDiTを提案する。DenseDiTは生成モデルの視覚的優先順位を最大限に活用し,多種多様な実世界の密集予測タスクを統一的戦略により実行する。
DenseDiTはパラメータ再利用機構と2つの軽量ブランチを組み合わせることで、複数のスケールコンテキストを適応的に統合し、0.1%未満の追加パラメータで機能する。
DenseWorldの評価では、既存の一般的なベースラインと特殊なベースラインに大幅なパフォーマンス低下が見られ、現実の一般化が制限されていることが強調されている。
対照的に、DenseDiTは、ベースラインの0.01%未満のトレーニングデータを使用して、現実のデプロイメントにおける実用的価値を裏付ける優れた結果を得る。
我々のデータとチェックポイントとコードはhttps://xcltql666.github.io/DenseDiTProjで入手できる。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild [32.33035216140421]
大規模言語モデルは、汎用言語インタフェースと大規模事前学習の恩恵を受け、データ効率のジェネラリストを進化させてきた。
しかし、濃密な視覚予測のためにデータ効率のよいジェネラリストを構築することは、異なるタスクにまたがるラベル構造の変化が原因で、大きな課題となる。
本研究では,不明瞭なラベル構造に柔軟に適用可能な普遍モデルについて,いくつかの例を挙げて検討する。
我々は,ビデオ,3D,医療,生物学的,ユーザインタラクションタスクなど,ローショット学習が望ましい実世界のシナリオの範囲で,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-04-29T06:35:34Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Neural-Sim: Learning to Generate Training Data with NeRF [31.81496344354997]
本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。
提案手法は,人的負担を伴わないオンデマンドでデータを生成し,目標タスクの精度を最大化する。
論文 参考訳(メタデータ) (2022-07-22T22:48:33Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。