論文の概要: Visual Commonsense Driven Knowledge Refinements for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2606.06369v1
- Date: Thu, 04 Jun 2026 16:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.967206
- Title: Visual Commonsense Driven Knowledge Refinements for Scene Graph Generation
- Title(参考訳): シーングラフ生成のためのビジュアルコモンセンス駆動の知識精製
- Authors: Maëlic Neau, Salim Baloch, Jakob Suchan, Zoe Falomir, Mehul Bhatt,
- Abstract要約: 学習駆動のシーングラフ生成(SGG)モデルは、頻繁な関係型に優れるが、アノテーションの間隔で著しく劣化する。
本稿では,コモンセンスの制約をトレーニングデータから抽出する,モデルに依存しない意味誘導型知識洗練フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.2903206650378327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-driven Scene Graph Generation (SGG) models excel on frequent relation types but degrade sharply under annotation sparsity, failing to capture reliable visual commonsense knowledge. We propose a model-agnostic, semantically-guided knowledge refinement framework that systematically mines commonsense-grounded constraints from training data - capturing spatial, functional, and qualitative relational regularities - and uses general declarative commonsense reasoning to correct and refine ranked SGG predictions at inference time. The framework requires no manual rule authoring, no model retraining, and transfers across datasets and architectures. On three standard benchmarks, we obtain consistent improvements over strong baselines, demonstrating that structured visual commonsense reasoning over deep scene semantics is a practical and effective complement to purely learning-based scene graph generation.
- Abstract(参考訳): 学習駆動SGG(Learning-driven Scene Graph Generation)モデルは、頻繁な関係型に優れるが、アノテーションのスパーシリティの下で急激に低下し、信頼できるビジュアルコモンセンスの知識を捉えられなかった。
本研究では,空間的,機能的,質的な関係の正則性を捉える訓練データから,コモンセンスに基づく制約を体系的に抽出する,モデルに依存しない意味誘導型知識改善フレームワークを提案し,推論時にランク付けされたSGG予測を補正・洗練するために一般的な宣言的コモンセンス推論を用いる。
このフレームワークは、手動のルールオーサリング、モデルの再トレーニング、データセットとアーキテクチャ間の転送を必要としない。
3つの標準ベンチマークにおいて、強いベースラインよりも一貫した改善が得られ、深いシーンセマンティクスよりも構造化されたビジュアルコモンセンス推論が純粋に学習に基づくシーングラフ生成の実践的かつ効果的な補完であることを示す。
関連論文リスト
- SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D [51.32219731589742]
3Dシーングラフは、オブジェクトエンティティとその関連性の構造化された表現を提供する。
3次元シーングラフ生成のための既存のアプローチは、通常、シーン再構成とグラフニューラルネットワーク(GNN)を組み合わせる。
本研究では,3次元のSGR3モデルを用いたScene Graph Retrieval-Reasoning Modelを提案する。
論文 参考訳(メタデータ) (2026-03-04T21:19:54Z) - RAG-GFM: Overcoming In-Memory Bottlenecks in Graph Foundation Models via Retrieval-Augmented Generation [27.59455285600957]
Graph Foundation Models (GFMs) はグラフ学習のフロンティアとして登場し、さまざまなタスク間で伝達可能な表現を提供することが期待されている。
本稿では,パラメータから知識をオフロードする検索型生成支援グラフ基礎モデルであるRAG-GFMを提案する。
RAG-GFMは、クロスドメインノードとグラフ分類の両方において、13の最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-01-21T16:02:43Z) - G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge [88.82814893945077]
大規模言語モデル(LLM)は複雑な推論において優れているが、静的かつ不完全なパラメトリック知識によって制限される。
最近のグラフ強化RAG (GraphRAG) は、このギャップを補足したグラフを構築し、LLMがそれらを推論できるようにする。
G-reasonerは、様々なグラフ構造化知識を推論するためにグラフと言語基盤モデルを統合した統合フレームワークである。
論文 参考訳(メタデータ) (2025-09-29T04:38:12Z) - Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成
本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。
特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文 参考訳(メタデータ) (2025-08-16T19:12:09Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。