論文の概要: Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning
- arxiv url: http://arxiv.org/abs/2505.09118v1
- Date: Wed, 14 May 2025 04:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.371001
- Title: Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning
- Title(参考訳): シーンを超えて見る:インタラクション推論によるビジョンランゲージモデルの強化
- Authors: Dayong Liang, Changmeng Zheng, Zhiyuan Wen, Yi Cai, Xiao-Yong Wei, Qing Li,
- Abstract要約: 伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。
本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。
本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
- 参考スコア(独自算出の注目度): 27.511627003202538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional scene graphs primarily focus on spatial relationships, limiting vision-language models' (VLMs) ability to reason about complex interactions in visual scenes. This paper addresses two key challenges: (1) conventional detection-to-construction methods produce unfocused, contextually irrelevant relationship sets, and (2) existing approaches fail to form persistent memories for generalizing interaction reasoning to new scenes. We propose Interaction-augmented Scene Graph Reasoning (ISGR), a framework that enhances VLMs' interactional reasoning through three complementary components. First, our dual-stream graph constructor combines SAM-powered spatial relation extraction with interaction-aware captioning to generate functionally salient scene graphs with spatial grounding. Second, we employ targeted interaction queries to activate VLMs' latent knowledge of object functionalities, converting passive recognition into active reasoning about how objects work together. Finally, we introduce a lone-term memory reinforcement learning strategy with a specialized interaction-focused reward function that transforms transient patterns into long-term reasoning heuristics. Extensive experiments demonstrate that our approach significantly outperforms baseline methods on interaction-heavy reasoning benchmarks, with particularly strong improvements on complex scene understanding tasks. The source code can be accessed at https://github.com/open_upon_acceptance.
- Abstract(参考訳): 伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。
本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。
本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
まず,両ストリームグラフコンストラクタにおいて,SAMを用いた空間関係抽出と対話対応キャプションを併用し,空間接地を伴う機能的に有意なシーングラフを生成する。
第2に、対象物の機能に関するVLMの潜在知識を活性化するために、ターゲットとなる対話クエリを使用し、受動的認識をオブジェクトの協調動作に関するアクティブな推論に変換する。
最後に,一過性のパターンを長期的推論ヒューリスティックに変換する対話型報酬関数を特化して,メモリ強化学習戦略を導入する。
大規模な実験により, 複雑なシーン理解タスクにおいて, インタラクション重大推論ベンチマークのベースライン手法を著しく上回る結果が得られた。
ソースコードはhttps://github.com/open_upon_acceptance.comでアクセスできる。
関連論文リスト
- Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition [53.02634128715853]
Few-shot Action Recognition (FSAR) は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。
FSARのための階層的関係強化表現一般化フレームワークHR2G-shotを提案する。
3種類の関係モデリング(フレーム間、ビデオ間、タスク間)を統合し、全体的視点からタスク固有の時間パターンを学習する。
論文 参考訳(メタデータ) (2025-04-14T10:23:22Z) - Generating Fine Details of Entity Interactions [17.130839907951877]
本稿では,3つの主要なシナリオをカバーする1000のきめ細かいプロンプトを持つインタラクション中心のデータセットであるInterActingを紹介する。
本稿では,相互作用生成問題に対処する分解強化手法を提案する。
当社のアプローチであるDetailScribeは、VLMを用いて生成した画像を批判し、拡散過程にターゲットの介入を適用する。
論文 参考訳(メタデータ) (2025-04-11T17:24:58Z) - HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding [8.10024991952397]
既存の手法は単純な関係モデルを活用しながら複雑な相互作用に焦点を当てている。
階層構造内の統一層とグラフを利用する階層型インターレースグラフ (HIG) という新しい手法を提案する。
提案手法は,様々なシナリオで実施された広範囲な実験を通じて,他の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-05T18:47:19Z) - Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。
提案手法は,より空間的な文脈を維持するために表現を導くことができる。
VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-09T11:54:55Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。