論文の概要: Universal Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2503.15005v1
- Date: Wed, 19 Mar 2025 08:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:33.399077
- Title: Universal Scene Graph Generation
- Title(参考訳): ユニバーサルシーングラフ生成
- Authors: Shengqiong Wu, Hao Fei, Tat-Seng Chua,
- Abstract要約: 本稿では,包括的セマンティックシーンを特徴付ける新しい表現であるUniversal Universal SG(USG)を紹介する。
クロスモーダルなオブジェクトアライメントとドメイン外課題の2つの重要なボトルネックに効果的に対処するUSG-Parについても紹介する。
- 参考スコア(独自算出の注目度): 77.53076485727414
- License:
- Abstract: Scene graph (SG) representations can neatly and efficiently describe scene semantics, which has driven sustained intensive research in SG generation. In the real world, multiple modalities often coexist, with different types, such as images, text, video, and 3D data, expressing distinct characteristics. Unfortunately, current SG research is largely confined to single-modality scene modeling, preventing the full utilization of the complementary strengths of different modality SG representations in depicting holistic scene semantics. To this end, we introduce Universal SG (USG), a novel representation capable of fully characterizing comprehensive semantic scenes from any given combination of modality inputs, encompassing modality-invariant and modality-specific scenes. Further, we tailor a niche-targeting USG parser, USG-Par, which effectively addresses two key bottlenecks of cross-modal object alignment and out-of-domain challenges. We design the USG-Par with modular architecture for end-to-end USG generation, in which we devise an object associator to relieve the modality gap for cross-modal object alignment. Further, we propose a text-centric scene contrasting learning mechanism to mitigate domain imbalances by aligning multimodal objects and relations with textual SGs. Through extensive experiments, we demonstrate that USG offers a stronger capability for expressing scene semantics than standalone SGs, and also that our USG-Par achieves higher efficacy and performance.
- Abstract(参考訳): シーングラフ(SG)表現は、シーンセマンティクスをきれいかつ効率的に記述することができる。
現実の世界では、複数のモダリティは、画像、テキスト、ビデオ、および3Dデータなどの異なるタイプで共存し、異なる特徴を表現していることが多い。
残念なことに、現在のSG研究は、主に単一モダリティシーンモデリングに限られており、全体論的シーンセマンティクスを描く際に、異なるモダリティSG表現の相補的な強みのフル活用を妨げている。
この目的のために,モダリティ不変シーンとモダリティ固有シーンを包含する,任意のモダリティ入力の組み合わせから包括的セマンティックシーンを完全に表現可能な,ユニバーサルSG(USG)を紹介した。
さらに、我々はニッチをターゲットとしたUSGパーサUSG-Parをカスタマイズし、クロスモーダルオブジェクトアライメントとドメイン外課題の2つの重要なボトルネックに効果的に対処する。
我々は、オブジェクトアソシエータを考案し、モーダルオブジェクトアライメントのモダリティギャップを緩和する、エンドツーエンドのUSG生成のためのモジュラーアーキテクチャを備えたUSG-Parを設計する。
さらに、マルチモーダルオブジェクトとテキストSGとの関係を整合させることにより、ドメインの不均衡を軽減するためのテキスト中心のシーンコントラスト学習機構を提案する。
大規模な実験を通じて、USGはスタンドアロンのSGよりもシーンセマンティクスを表現する能力が強く、また、USG-Parは高い有効性と性能を達成することを実証した。
関連論文リスト
- Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension [46.07415235144545]
一般参照表現(GREC)の課題に対処する。
既存のRECメソッドは、GRECで遭遇した複雑なケースを扱う際の課題に直面している。
階層的アライメント強化型適応グラウンドネットワーク(HieA2G)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:57:59Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing [8.830873674673828]
既存の方法は、様々な訓練領域からドメイン不変の特徴を抽出することを目的としている。
抽出された特徴は、必然的に残差スタイルの特徴バイアスを含んでおり、その結果、一般化性能が劣る。
本稿では,テキスト情報をドメイン間アライメントに有効活用するテキストガイド型ドメイン一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:13:46Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。