論文の概要: Semantic-Guided Natural Language and Visual Fusion for Cross-Modal Interaction Based on Tiny Object Detection
- arxiv url: http://arxiv.org/abs/2511.05474v1
- Date: Fri, 07 Nov 2025 18:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.860652
- Title: Semantic-Guided Natural Language and Visual Fusion for Cross-Modal Interaction Based on Tiny Object Detection
- Title(参考訳): Tiny Object Detectionに基づく意味誘導型自然言語と視覚融合による相互モーダルインタラクション
- Authors: Xian-Hong Huang, Hui-Kai Su, Chi-Chia Sun, Jun-Wei Hsieh,
- Abstract要約: 本稿では, セマンティック誘導自然言語処理と高度な視覚認識バックボーンを組み合わせることで, オブジェクト検出のためのクロスモーダルインタラクションの最先端的手法を提案する。
提案手法は,BERT言語モデルとCNNに基づくParallel Residual Bi-Fusion Feature Pyramid Networkを統合する。
補題化と微調整技術を用いることで、テキスト入力から視覚的特徴にセマンティックキューを整列させ、小型で複雑な物体の検出精度を向上する。
- 参考スコア(独自算出の注目度): 6.895355763564631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a cutting-edge approach to cross-modal interaction for tiny object detection by combining semantic-guided natural language processing with advanced visual recognition backbones. The proposed method integrates the BERT language model with the CNN-based Parallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN-Net), incorporating innovative backbone architectures such as ELAN, MSP, and CSP to optimize feature extraction and fusion. By employing lemmatization and fine-tuning techniques, the system aligns semantic cues from textual inputs with visual features, enhancing detection precision for small and complex objects. Experimental validation using the COCO and Objects365 datasets demonstrates that the model achieves superior performance. On the COCO2017 validation set, it attains a 52.6% average precision (AP), outperforming YOLO-World significantly while maintaining half the parameter consumption of Transformer-based models like GLIP. Several test on different of backbones such ELAN, MSP, and CSP further enable efficient handling of multi-scale objects, ensuring scalability and robustness in resource-constrained environments. This study underscores the potential of integrating natural language understanding with advanced backbone architectures, setting new benchmarks in object detection accuracy, efficiency, and adaptability to real-world challenges.
- Abstract(参考訳): 本稿では, セマンティック誘導自然言語処理と高度な視覚認識バックボーンを組み合わせることで, オブジェクト検出のためのクロスモーダルインタラクションの最先端的手法を提案する。
提案手法は,BERT言語モデルとCNNベースのParallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN-Net)を統合し,ELAN,MPP,CSPなどの革新的なバックボーンアーキテクチャを取り入れ,特徴抽出と融合を最適化する。
補題化と微調整技術を用いることで、テキスト入力から視覚的特徴にセマンティックキューを整列させ、小型で複雑な物体の検出精度を向上する。
COCOとObjects365データセットを用いた実験的検証は、モデルが優れたパフォーマンスを達成することを示す。
COCO2017の検証セットでは、平均精度(AP)が52.6%に達し、GLIPのようなTransformerベースのモデルのパラメータ消費の半分を維持しながら、YOLO-Worldを著しく上回っている。
ELAN、MSP、CSPなどの異なるバックボーン上でのいくつかのテストにより、マルチスケールオブジェクトの効率的なハンドリングが可能になり、リソース制約のある環境でのスケーラビリティと堅牢性を確保することができる。
この研究は、自然言語理解を高度なバックボーンアーキテクチャと統合し、オブジェクト検出の精度、効率、現実の課題への適応性に新しいベンチマークを設定できる可能性を強調している。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Performance Optimization of YOLO-FEDER FusionNet for Robust Drone Detection in Visually Complex Environments [0.981328290471248]
視覚的に複雑な環境でのドローン検出は、背景のぼやけ、小さな物体スケール、カモフラージュ効果のために困難である。
この研究は、汎用オブジェクト検出とカモフラージュオブジェクト検出技術を統合する、YOLO-FEDER FusionNetの強化されたイテレーションを示す。
論文 参考訳(メタデータ) (2025-09-17T14:21:00Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。
提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。
完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:14:32Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - GLCONet: Learning Multi-source Perception Representation for Camouflaged Object Detection [23.872633359324098]
我々はGLCONetと呼ばれる新しいグローバルローカル協調最適化ネットワークを提案する。
本稿では、まず、局所的な詳細とグローバルな長距離関係を同時にモデル化するための協調最適化戦略を設計する。
実験により、異なるバックボーンを持つGLCONet法は、画像中の潜在的に重要なピクセルを効果的に活性化できることが示されている。
論文 参考訳(メタデータ) (2024-09-15T02:26:17Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - MPI: Multi-receptive and Parallel Integration for Salient Object
Detection [17.32228882721628]
深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠である。
本稿では,MPIと呼ばれる新しい手法を提案する。
提案手法は,異なる評価基準下での最先端手法よりも優れる。
論文 参考訳(メタデータ) (2021-08-08T12:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。