論文の概要: Interaction-Centric Knowledge Infusion and Transfer for Open-Vocabulary Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2511.05935v1
- Date: Sat, 08 Nov 2025 08:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.664869
- Title: Interaction-Centric Knowledge Infusion and Transfer for Open-Vocabulary Scene Graph Generation
- Title(参考訳): オープンボキャブラリシーングラフ生成のための対話型知識注入と伝達
- Authors: Lin Li, Chuhan Zhang, Dong Zhang, Chong Sun, Chen Li, Long Chen,
- Abstract要約: オープン語彙シーングラフ生成(OVSGG)は、新しいオブジェクトを認識し、予め定義された関係カテゴリを超えて従来のSGGを拡張する。
我々は、これらのミスマッチを最小限に抑えるために、インタラクション駆動のパラダイムでtextbfACtion-textbfCentric end-to-end OVSGG framework(textbfACC)を提案する。
- 参考スコア(独自算出の注目度): 20.867572814544836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary scene graph generation (OVSGG) extends traditional SGG by recognizing novel objects and relationships beyond predefined categories, leveraging the knowledge from pre-trained large-scale models. Existing OVSGG methods always adopt a two-stage pipeline: 1) \textit{Infusing knowledge} into large-scale models via pre-training on large datasets; 2) \textit{Transferring knowledge} from pre-trained models with fully annotated scene graphs during supervised fine-tuning. However, due to a lack of explicit interaction modeling, these methods struggle to distinguish between interacting and non-interacting instances of the same object category. This limitation induces critical issues in both stages of OVSGG: it generates noisy pseudo-supervision from mismatched objects during knowledge infusion, and causes ambiguous query matching during knowledge transfer. To this end, in this paper, we propose an inter\textbf{AC}tion-\textbf{C}entric end-to-end OVSGG framework (\textbf{ACC}) in an interaction-driven paradigm to minimize these mismatches. For \textit{interaction-centric knowledge infusion}, ACC employs a bidirectional interaction prompt for robust pseudo-supervision generation to enhance the model's interaction knowledge. For \textit{interaction-centric knowledge transfer}, ACC first adopts interaction-guided query selection that prioritizes pairing interacting objects to reduce interference from non-interacting ones. Then, it integrates interaction-consistent knowledge distillation to bolster robustness by pushing relational foreground away from the background while retaining general knowledge. Extensive experimental results on three benchmarks show that ACC achieves state-of-the-art performance, demonstrating the potential of interaction-centric paradigms for real-world applications.
- Abstract(参考訳): Open-vocabulary scene graph generation (OVSGG)は、事前定義されたカテゴリを超えて新しいオブジェクトや関係を認識し、事前訓練された大規模モデルの知識を活用することで、従来のSGGを拡張している。
既存のOVSGGメソッドは常に2段階のパイプラインを採用しています。
1) 大規模データセットの事前学習による大規模モデルへの \textit{Infusing knowledge} の導入
2) 教師付き微調整中に完全に注釈付けされたシーングラフを持つ事前訓練されたモデルから知識を伝達する。
しかしながら、明示的な相互作用モデリングが欠如しているため、これらの手法は同一のオブジェクトカテゴリの相互作用インスタンスと非相互作用インスタンスの区別に苦慮している。
この制限はOVSGGのどちらの段階においても重要な問題を引き起こし、知識注入中にミスマッチしたオブジェクトからノイズの多い擬似スーパービジョンを生成し、知識伝達中にあいまいなクエリマッチングを引き起こす。
本稿では,これらのミスマッチを最小限に抑えるために,インタラクション駆動のパラダイムを用いて,Inter\textbf{AC}tion-\textbf{C}entric end-to-end OVSGG framework(\textbf{ACC})を提案する。
textit{interaction-centric knowledge infusion} では、ACC はモデルの相互作用知識を強化するために、ロバストな擬似スーパービジョン生成のために双方向の相互作用プロンプトを使用する。
textit{interaction-centric knowledge transfer} では、ACC が最初に、相互作用しないオブジェクトからの干渉を減らすために、相互作用するオブジェクトのペア化を優先するインタラクション誘導クエリ選択を採用する。
そして, 一般知識を維持しつつ, 関係前景を背景から遠ざけることにより, 相互作用に一貫性のある知識蒸留を統合し, 堅牢性を高める。
3つのベンチマークによる大規模な実験結果から、ACCは最先端のパフォーマンスを実現し、実世界のアプリケーションにおけるインタラクション中心のパラダイムの可能性を示している。
関連論文リスト
- Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。
現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。
Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文 参考訳(メタデータ) (2025-08-05T08:33:58Z) - Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning [27.511627003202538]
伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。
本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。
本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
論文 参考訳(メタデータ) (2025-05-14T04:04:23Z) - Taking A Closer Look at Interacting Objects: Interaction-Aware Open Vocabulary Scene Graph Generation [16.91119080704441]
対話型OVSGGフレームワークINOVAを提案する。
事前トレーニングでは、対話対象と非対話対象を区別するために、対話対応のターゲット生成戦略を採用している。
INOVAは、相互作用するオブジェクトペアを背景から遠ざけることで堅牢性を高めるために、相互作用一貫性のある知識蒸留を備えている。
論文 参考訳(メタデータ) (2025-02-06T08:18:06Z) - End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:25:01Z) - BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation [5.106261499635623]
シーングラフ生成(SGG)のためのセマンティックアライメント空間における新しい双方向コンディショニング因数分解法を提案する。
本稿では,双方向コンディショニングトランス (BCTR) を用いたエンド・ツー・エンドシーングラフ生成モデルを提案する。
BCTRは2つの重要なモジュールから構成されている。まず、双方向条件生成装置(BCG)は、エンティティと述語の間で多段階の対話的特徴拡張を行い、これらの予測間の相互強化を可能にする。
第二に、Random Feature Alignment(RFA)は、事前訓練されたモデルからマルチモーダルな知識を蒸留することによって特徴空間を正規化するために存在する。
論文 参考訳(メタデータ) (2024-07-26T13:02:48Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。