Fugu-MT 論文翻訳(概要): Discriminative Flow Matching Via Local Generative Predictors

論文の概要: Discriminative Flow Matching Via Local Generative Predictors

arxiv url: http://arxiv.org/abs/2603.13928v1
Date: Sat, 14 Mar 2026 12:56:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.491787
Title: Discriminative Flow Matching Via Local Generative Predictors
Title（参考訳）: 局所生成予測器を用いた識別フローマッチング
Authors: Om Govind Jha, Manoj Bamniya, Ayon Borthakur,
Abstract要約: 条件付き輸送プロセスとして分類と対象検出を再構成する枠組みを提案する。本手法では,複数の独立フロー予測器を共有バックボーンにアタッチする。このアーキテクチャは、アクティベーションメモリを最小化するために、あるいは異なるハードウェア制約に適合するために、ブロックを順次更新する柔軟性を提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional discriminative computer vision relies predominantly on static projections, mapping input features to outputs in a single computational step. Although efficient, this paradigm lacks the iterative refinement and robustness inherent in biological vision and modern generative modelling. In this paper, we propose Discriminative Flow Matching, a framework that reformulates classification and object detection as a conditional transport process. By learning a vector field that continuously transports samples from a simple noise distribution toward a task-aligned target manifold -- such as class embeddings or bounding box coordinates -- we are at the interface between generative and discriminative learning. Our method attaches multiple independent flow predictors to a shared backbone. These predictors are trained using local flow matching objectives, where gradients are computed independently for each block. We formulate this approach for standard image classification and extend it to the complex task of object detection, where targets are high-dimensional and spatially distributed. This architecture provides the flexibility to update blocks either sequentially to minimise activation memory or in parallel to suit different hardware constraints. By aggregating the predictions from these independent flow predictors, our framework enables robust, generative-inspired inference across diverse architectures, including CNNs and vision transformers.
Abstract（参考訳）: 従来の識別型コンピュータビジョンは、主に静的投影に依存し、入力特徴を単一の計算ステップで出力にマッピングする。効率的ではあるが、このパラダイムは生物学的ビジョンと近代的な生成モデルに固有の反復的な洗練と堅牢さを欠いている。本稿では,分類と物体検出を条件付き輸送プロセスとして再構成するフレームワークである識別フローマッチングを提案する。単純なノイズ分布からクラス埋め込みやバウンディングボックス座標といったタスク整列されたターゲット多様体へサンプルを継続的に輸送するベクトル場を学習することで、生成的学習と識別的学習の界面に着目する。本手法では,複数の独立フロー予測器を共有バックボーンにアタッチする。これらの予測器は局所的なフローマッチング目標を用いて訓練され、各ブロックごとに勾配が独立に計算される。標準画像分類のためのこのアプローチを定式化し、ターゲットが高次元かつ空間分布である物体検出の複雑なタスクに拡張する。このアーキテクチャは、アクティベーションメモリを最小化するために、あるいは異なるハードウェア制約に適合するために、ブロックを順次更新する柔軟性を提供する。これらの独立したフロー予測器からの予測を集約することにより、我々のフレームワークは、CNNやビジョントランスフォーマーなど、さまざまなアーキテクチャにわたる堅牢で生成にインスパイアされた推論を可能にします。

関連論文リスト

Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文参考訳（メタデータ） (2025-06-24T22:43:36Z)
Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation [9.964615076037397]
ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T02:29:51Z)
ParetoFlow: Guided Flows in Multi-Objective Optimization [12.358524770639136]
オフライン多目的最適化(MOO)では、関連するラベルのオフラインデータセットを同時に複数の目的に活用する。最近のイテレーションは主に進化的最適化とベイズ最適化を採用しており、データに固有の生成能力に限定的に注意が向けられている。本手法は,様々なタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-12-04T21:14:18Z)
Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文参考訳（メタデータ） (2023-11-02T16:45:25Z)
A Simple Strategy to Provable Invariance via Orbit Mapping [14.127786615513978]
本稿では,グループ行動に関して,ネットワークアーキテクチャを確実に不変にする方法を提案する。簡単に言えば、実際のネットワークにデータを送る前に、可能なトランスフォーメーションを“無効化”するつもりです。
論文参考訳（メタデータ） (2022-09-24T03:40:42Z)
Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文参考訳（メタデータ） (2021-11-11T15:15:11Z)
Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。 Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文参考訳（メタデータ） (2021-06-04T17:59:52Z)
DAAIN: Detection of Anomalous and Adversarial Input using Normalizing Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文参考訳（メタデータ） (2021-05-30T22:07:13Z)
A Trainable Optimal Transport Embedding for Feature Aggregation and its Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文参考訳（メタデータ） (2020-06-22T08:35:58Z)
Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。 1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-02-06T22:58:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。