論文の概要: Two-Stream Interactive Joint Learning of Scene Parsing and Geometric Vision Tasks
- arxiv url: http://arxiv.org/abs/2602.13588v1
- Date: Sat, 14 Feb 2026 04:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.224068
- Title: Two-Stream Interactive Joint Learning of Scene Parsing and Geometric Vision Tasks
- Title(参考訳): シーンパーシングと幾何学的視覚課題の双方向対話型共同学習
- Authors: Guanfeng Tang, Hongbo Zhao, Ziwei Long, Jiayao Li, Bohong Xiao, Wei Ye, Hanli Wang, Rui Fan,
- Abstract要約: Two Interactive Streams (TwInS)は、シーン解析と幾何学的視覚タスクを同時に実行可能な、バイオインスパイアされた新しい共同学習フレームワークである。
TwInSは、費用がかかる人手による通信基盤の真理への依存をなくすため、調整された半教師付き訓練戦略を備えている。
- 参考スコア(独自算出の注目度): 24.19752468668527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the human visual system, which operates on two parallel yet interactive streams for contextual and spatial understanding, this article presents Two Interactive Streams (TwInS), a novel bio-inspired joint learning framework capable of simultaneously performing scene parsing and geometric vision tasks. TwInS adopts a unified, general-purpose architecture in which multi-level contextual features from the scene parsing stream are infused into the geometric vision stream to guide its iterative refinement. In the reverse direction, decoded geometric features are projected into the contextual feature space for selective heterogeneous feature fusion via a novel cross-task adapter, which leverages rich cross-view geometric cues to enhance scene parsing. To eliminate the dependence on costly human-annotated correspondence ground truth, TwInS is further equipped with a tailored semi-supervised training strategy, which unleashes the potential of large-scale multi-view data and enables continuous self-evolution without requiring ground-truth correspondences. Extensive experiments conducted on three public datasets validate the effectiveness of TwInS's core components and demonstrate its superior performance over existing state-of-the-art approaches. The source code will be made publicly available upon publication.
- Abstract(参考訳): 本稿では,環境・空間的理解のための2つの並列な対話的ストリームで動作する人間の視覚システムに触発され,シーン解析と幾何学的視覚タスクを同時に実行可能な,バイオインスパイアされた新しい共同学習フレームワークであるTwInSを提案する。
TwInSは、シーン解析ストリームからの多段階のコンテキスト特徴を幾何学的視覚ストリームに注入して、その反復的洗練を導く、統一された汎用アーキテクチャを採用している。
逆方向において、デコードされた幾何学的特徴は、シーン解析を強化するためにリッチなクロスビュー幾何学的手がかりを利用する新しいクロスタスクアダプタを介して、選択的な異種特徴融合のためのコンテキスト特徴空間に投影される。
TwInSは、コストのかかる人手による通信基盤の真理への依存をなくすために、大規模多視点データの可能性を解き放ち、地上の通信を必要とせずに連続的な自己進化を可能にする、調整された半教師付き訓練戦略を備えている。
3つの公開データセットで実施された大規模な実験は、TwInSのコアコンポーネントの有効性を検証し、既存の最先端アプローチよりも優れたパフォーマンスを示している。
ソースコードは公開時に公開される。
関連論文リスト
- Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning [44.254412516852874]
現在の手法では、マルチモーダルプランニングに統一された生成フレームワークを採用できないため、マルチモーダルプランニングでは矛盾する。
提案手法は,動的事前学習と強化アライメントを取り入れた新しいトレーニングパイプラインにより,長期タスクのマルチモーダル計画を実現する。
論文 参考訳(メタデータ) (2025-11-03T10:24:49Z) - Real-Time Intuitive AI Drawing System for Collaboration: Enhancing Human Creativity through Formal and Contextual Intent Integration [26.920087528015205]
本稿では,形式的意図と文脈的意図の両方を解釈・統合するリアルタイム生成システムを提案する。
このシステムは,共有キャンバス上でのマルチユーザコラボレーションをサポートしながら,低レイテンシで2段階の変換を実現する。
論文 参考訳(メタデータ) (2025-08-12T01:34:23Z) - Geometric Visual Fusion Graph Neural Networks for Multi-Person Human-Object Interaction Recognition in Videos [14.198003271084799]
ビデオにおけるHuman-Object Interaction(HOI)認識には、時間とともに進化していく視覚的パターンと幾何学的関係の両方を理解する必要がある。
本稿では,相互依存型実体グラフ学習と組み合わせた2重アテンション特徴フュージョンを用いたGeometric Visual Fusion Graph Neural Network (GeoVis-GNN)を提案する。
実世界のシナリオにHOI認識を前進させるために、コンカレント部分的相互作用データセットを導入する。
論文 参考訳(メタデータ) (2025-06-03T22:51:44Z) - Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation [64.07560335451723]
CoSERは、テキストから3Dへの一貫した高密度テキスト・ツー・イメージ・ジェネレータである。
隣人のビューコヒーレンスを巧みに学習することで効率と品質を両立させる。
物理原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
論文 参考訳(メタデータ) (2024-08-23T15:16:01Z) - Towards Deeply Unified Depth-aware Panoptic Segmentation with
Bi-directional Guidance Learning [63.63516124646916]
深度認識型パノプティックセグメンテーションのためのフレームワークを提案する。
本稿では,クロスタスク機能学習を容易にする双方向指導学習手法を提案する。
本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。
論文 参考訳(メタデータ) (2023-07-27T11:28:33Z) - Semantic Role Aware Correlation Transformer for Text to Video Retrieval [23.183653281610866]
本稿では,テキストや動画をオブジェクト,空間的コンテキスト,時間的コンテキストのセマンティックな役割へと明示的に切り離す新しいトランスフォーマーを提案する。
一般的なYouCook2の予備的な結果は、我々のアプローチが現在の最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2022-06-26T11:28:03Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。