論文の概要: HI-MoE: Hierarchical Instance-Conditioned Mixture-of-Experts for Object Detection
- arxiv url: http://arxiv.org/abs/2604.04908v1
- Date: Mon, 06 Apr 2026 17:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.324836
- Title: HI-MoE: Hierarchical Instance-Conditioned Mixture-of-Experts for Object Detection
- Title(参考訳): HI-MoE:オブジェクト検出のための階層型インスタンス・コンディション混合処理
- Authors: Vadim Vashkelis, Natalia Trukhina,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、各入力に対するモデルのパラメータのサブセットのみを活性化することにより、条件計算を可能にする。
本稿では,2段階のルーティングを行うDETR型検出アーキテクチャであるHi-MoEを提案する。
実験的な検証を支援することを目的として,提案手法,アブレーション,現行の限界について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) architectures enable conditional computation by activating only a subset of model parameters for each input. Although sparse routing has been highly effective in language models and has also shown promise in vision, most vision MoE methods operate at the image or patch level. This granularity is poorly aligned with object detection, where the fundamental unit of reasoning is an object query corresponding to a candidate instance. We propose Hierarchical Instance-Conditioned Mixture-of-Experts (HI-MoE), a DETR-style detection architecture that performs routing in two stages: a lightweight scene router first selects a scene-consistent expert subset, and an instance router then assigns each object query to a small number of experts within that subset. This design aims to preserve sparse computation while better matching the heterogeneous, instance-centric structure of detection. In the current draft, experiments are concentrated on COCO with preliminary specialization analysis on LVIS. Under these settings, HI-MoE improves over a dense DINO baseline and over simpler token-level or instance-only routing variants, with especially strong gains on small objects. We also provide an initial visualization of expert specialization patterns. We present the method, ablations, and current limitations in a form intended to support further experimental validation.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、各入力に対するモデルのパラメータのサブセットのみを活性化することにより、条件計算を可能にする。
スパースルーティングは言語モデルにおいて非常に効果的であり、ビジョンにおいても有望であることを示しているが、ほとんどのビジョンMoEメソッドは画像やパッチレベルで動作している。
推論の基本単位は、候補インスタンスに対応するオブジェクトクエリである。
軽量シーンルータがまずシーン一貫性のあるサブセットを選択し、インスタンスルータが各オブジェクトクエリをそのサブセット内の少数の専門家に割り当てる。
この設計は、不均一なインスタンス中心の検出構造に適合しながらスパース計算を保存することを目的としている。
現在のドラフトでは、LVISに関する予備的な特殊化分析を行い、COCOに重点を置いている。
これらの設定下では、HI-MoEは密度の高いDINOベースラインと、より単純なトークンレベルまたはインスタンスのみのルーティングバリアントよりも改善され、特に小さなオブジェクトでは強力な利得がある。
また、専門家の専門化パターンの初期の視覚化も提供します。
実験的な検証を支援することを目的として,提案手法,アブレーション,現行の限界について述べる。
関連論文リスト
- Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection [29.69451620133701]
人オブジェクトインタラクション(HOI)検出は、人オブジェクトペアをローカライズし、そのインタラクションを単一のイメージから分類することを目的としている。
近年のアプローチでは、視覚言語モデル(VLM)を利用してセマンティックな事前情報を導入し、HOI検出性能を大幅に改善している。
本稿では、VLMから抽出したリッチな意味知識と、オブジェクト検出器によって生成されたインスタンス固有の特徴を統合するために、インスタンス中心のコンテキストマイニングネットワーク(InCoM-Net)を提案する。
論文 参考訳(メタデータ) (2026-04-02T14:01:58Z) - A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - Align Your Query: Representation Alignment for Multimodality Medical Object Detection [55.86070915426998]
本稿では,表現をモダリティの文脈と整合させる検出非依存の枠組みを提案する。
モーダリティトークンをマルチモーダリティコンテキスト注意による検出プロセスに統合する。
提案されたアプローチは、最小限のオーバーヘッドとアーキテクチャの変更を伴わず、APを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-03T07:49:21Z) - Learning to Borrow Features for Improved Detection of Small Objects in Single-Shot Detectors [0.0]
そこで本研究では,クラス内のより大規模で意味的にリッチなインスタンスから,小さなオブジェクト表現を識別的特徴の「バラバラ化」を可能にする新しいフレームワークを提案する。
本手法は, 複雑な視覚環境下でのロバストな物体検出に有望な方向を提供するため, ベースライン法よりも小さな物体検出精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-04-30T01:18:33Z) - MGMapNet: Multi-Granularity Representation Learning for End-to-End Vectorized HD Map Construction [75.93907511203317]
多粒性表現を持つ地図要素をモデル化するためのMGMapNet(Multi-Granularity Map Network)を提案する。
提案したMGMapNetは最先端のパフォーマンスを達成し,MapTRv2 を nuScenes で 5.3 mAP,Argoverse2 で 4.4 mAP で上回った。
論文 参考訳(メタデータ) (2024-10-10T09:05:23Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - TIDE: Test Time Few Shot Object Detection [11.036762620105383]
Few-shot Object Detection (FSOD) は、対象ドメイン内の新しいカテゴリの限られたオブジェクトインスタンスから意味的知識を抽出することを目的としている。
FSODの最近の進歩は、メタ学習やデータ拡張を通じて、いくつかのオブジェクトに基づいてベースモデルを微調整することに焦点を当てている。
我々は、新しいFSODタスクを定式化し、TIDE(Test TIme Few Shot Detection)と呼ぶ。
論文 参考訳(メタデータ) (2023-11-30T09:00:44Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。