論文の概要: SignReasoner: Compositional Reasoning for Complex Traffic Sign Understanding via Functional Structure Units
- arxiv url: http://arxiv.org/abs/2604.10436v1
- Date: Sun, 12 Apr 2026 03:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.015661
- Title: SignReasoner: Compositional Reasoning for Complex Traffic Sign Understanding via Functional Structure Units
- Title(参考訳): SignReasoner: 機能構造ユニットによる複雑な交通信号理解のための合成推論
- Authors: Ruibin Wang, Zhenyu Lin, Xinhai Zhao,
- Abstract要約: SignReasonerは、一般的な視覚言語モデルから専門家の交通標識推論に変換する新しいパラダイムである。
私たちの中心となるイノベーションはFSU(Functional Structure Unit)です。
新たに提案されたFSU-ReasoningベンチマークであるTrafficSignEvalの実験では、SignReasonerが顕著なデータ効率とアーキテクチャ変更のない新しいSOTAを実現している。
- 参考スコア(独自算出の注目度): 9.420205394670287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate semantic understanding of complex traffic signs-including those with intricate layouts, multi-lingual text, and composite symbols-is critical for autonomous driving safety. Current models, both specialized small ones and large Vision Language Models (VLMs), suffer from a significant bottleneck: a lack of compositional generalization, leading to failure when encountering novel sign configurations. To overcome this, we propose SignReasoner, a novel paradigm that transforms general VLMs into expert traffic sign reasoners. Our core innovation is Functional Structure Unit (FSU), which shifts from common instance-based modeling to flexible function-based decomposition. By breaking down complex signs into minimal, core functional blocks (e.g., Direction, Notice, Lane), our model learns the underlying structural grammar, enabling robust generalization to unseen compositions. We define this decomposition as the FSU-Reasoning task and introduce a two-stage VLM post-training pipeline to maximize performance: Iterative Caption-FSU Distillation that enhances the model's accuracy in both FSU-reasoning and caption generation; FSU-GRPO that uses Tree Edit Distance (TED) to compute FSU differences as the rewards in GRPO algorithm, boosting reasoning abilities. Experiments on the newly proposed FSU-Reasoning benchmark, TrafficSignEval, show that SignReasoner achieves new SOTA with remarkable data efficiency and no architectural modification, significantly improving the traffic sign understanding in various VLMs.
- Abstract(参考訳): 複雑な交通標識の正確な意味理解 - 複雑なレイアウト、多言語テキスト、複合記号を含む - は、自動運転の安全性に不可欠である。
現在のモデルでは、特殊小文字と大型視覚言語モデル(VLM)の両方が、構成一般化の欠如という重大なボトルネックに悩まされており、新しい符号構成に遭遇する際に失敗する。
そこで本研究では,一般的なVLMを専門的なトラフィックシグナリテータに変換する新しいパラダイムであるSignReasonerを提案する。
私たちの中心となるイノベーションはFSU(Functional Structure Unit)です。
複素符号を最小の関数ブロック(例えば、方向、通知、レーン)に分解することで、我々のモデルは基礎となる構造文法を学習し、無意味な合成を堅牢に一般化することができる。
この分解をFSU-Reasoningタスクとして定義し、性能を最大化するために2段階のVLM後訓練パイプラインを導入する: FSU-reasoningとキャプション生成の両方においてモデルの精度を高める反復キャプション-FSU蒸留;FSU-GRPOは木編集距離(TED)を用いてFSU差分をGRPOアルゴリズムの報酬として計算し、推論能力を高める。
新たに提案されたFSU-ReasoningベンチマークであるTrafficSignEvalの実験では、SignReasonerは、データ効率が優れ、アーキテクチャの変更がない新しいSOTAを実現し、様々なVLMにおけるトラフィックサイン理解を大幅に改善した。
関連論文リスト
- Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition [7.632962062462334]
ゼロショット手書き漢字認識は、急進的な意味合成を活用することで、目に見えない文字を認識することを目的としている。
本稿では,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
ICDAR 2013データセットで55.04%の精度を達成し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-03T16:08:40Z) - LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models [4.497411606350301]
LPR(Real-world License Plate Recognition)は、モーションボケ、低解像度、複雑な照明などの深刻な劣化によって大きな課題に直面している。
画像復元モデルの画素レベルの最適化目標は、文字認識のセマンティックな目標と不一致である。
本稿では,Qwen3-VLに基づくエンドツーエンド構造対応マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T03:32:55Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models [33.99822400076112]
チャンクに基づくスパースアテンションは、極端な長さの一般化のための有望なパラダイムとして現れている。
本稿では,これらのモデルを体系的に分解し,その性能を駆動するコアコンポーネントを同定する。
我々は、4KコンテキストでトレーニングされたモデルをRULERとBABILongで3200万トークンに一般化し、トレーニング不要な長さ外挿のための新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2025-10-20T06:17:57Z) - SLiNT: Structure-aware Language Model with Injection and Contrastive Training for Knowledge Graph Completion [11.686307370683922]
知識グラフにおけるリンク予測は、欠落したエンティティを推測するために構造情報と意味コンテキストを統合する必要がある。
SLiNTは,知識グラフに基づく構造的コンテキストを,ロラをベースとした軽量な適応型フリーズバックボーンに注入し,堅牢なリンク予測を行うモジュールフレームワークである。
WN18RRとFB15k-237の実験により、SLiNTは埋め込みベースとジェネレーションベースの両方と比較して優れた性能または競争性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-09-08T10:36:49Z) - GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving [5.450011907283289]
本稿では, GMF-Driveを紹介した。これは2つの原則的イノベーションを通じて, 課題を克服するエンドツーエンドフレームワークである。
まず、情報制限ヒストグラムに基づくLiDAR表現を、幾何学的に拡張された柱形式で置き換える。
第二に,高効率空間認識状態空間モデルを用いた高価な変圧器を代替する新しい階層型マンバ融合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-08T08:17:18Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。