論文の概要: Generative Visual Commonsense Answering and Explaining with Generative Scene Graph Constructing
- arxiv url: http://arxiv.org/abs/2501.09041v1
- Date: Wed, 15 Jan 2025 04:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:41.289999
- Title: Generative Visual Commonsense Answering and Explaining with Generative Scene Graph Constructing
- Title(参考訳): Generative Visual Commonsense Answering and Explaining with Generative Scene Graph Constructing
- Authors: Fan Yuan, Xiaoyuan Fang, Rong Quan, Jing Li, Wei Bi, Xiaogang Xu, Piji Li,
- Abstract要約: 我々はtextittextbfG2 という新しいビジュアルコモンセンス推論手法を提案する。
まず、画像パッチとLCMを使用して、位置のないシーングラフを構築し、シーングラフの情報に基づいて回答と説明を行う。
また、トレーニング中に貴重なシーングラフ情報を吸収するためのシーングラフの自動フィルタリングと選択戦略を提案する。
- 参考スコア(独自算出の注目度): 46.701439459096235
- License:
- Abstract: Visual Commonsense Reasoning, which is regarded as one challenging task to pursue advanced visual scene comprehension, has been used to diagnose the reasoning ability of AI systems. However, reliable reasoning requires a good grasp of the scene's details. Existing work fails to effectively exploit the real-world object relationship information present within the scene, and instead overly relies on knowledge from training memory. Based on these observations, we propose a novel scene-graph-enhanced visual commonsense reasoning generation method named \textit{\textbf{G2}}, which first utilizes the image patches and LLMs to construct a location-free scene graph, and then answer and explain based on the scene graph's information. We also propose automatic scene graph filtering and selection strategies to absorb valuable scene graph information during training. Extensive experiments are conducted on the tasks and datasets of scene graph constructing and visual commonsense answering and explaining, respectively. Experimental results and ablation analysis demonstrate the effectiveness of our proposed framework.
- Abstract(参考訳): ビジュアルコモンセンス推論(Visual Commonsense Reasoning)は、AIシステムの推論能力の診断に使われている。
しかし、信頼できる推論には、シーンの詳細を十分に把握する必要がある。
既存の作業は、シーン内に存在する現実世界のオブジェクト関係情報を効果的に活用することができず、代わりにトレーニングメモリからの知識に過度に依存する。
これらの観測結果に基づいて,まず画像パッチとLCMを用いて位置のないシーングラフを構築し,シーングラフの情報に基づいて応答と説明を行う,新しいシーングラフ付きビジュアルコモンセンス推論生成法である「textit{\textbf{G2}}」を提案する。
また、トレーニング中に貴重なシーングラフ情報を吸収するためのシーングラフの自動フィルタリングと選択戦略を提案する。
シーングラフ構築のタスクとデータセット、視覚的コモンセンスの回答と説明について、広範囲にわたる実験を行った。
実験結果とアブレーション解析により,提案手法の有効性が示された。
関連論文リスト
- GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Location-Free Scene Graph Generation [45.366540803729386]
シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。
既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。
我々は、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入する。
本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
論文 参考訳(メタデータ) (2023-03-20T08:57:45Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question
Answering [13.886692497676659]
Graphhopperは知識グラフ推論、コンピュータビジョン、自然言語処理技術を統合することでタスクにアプローチする新しい手法である。
画像中のオブジェクトとその属性と相互関係を記述したシーングラフを導出する。
強化学習エージェントは、抽出されたシーングラフ上でマルチホップで自律的にナビゲートし、推論経路を生成するように訓練される。
論文 参考訳(メタデータ) (2021-07-13T18:33:04Z) - A Comprehensive Survey of Scene Graphs: Generation and Application [42.07469181785126]
シーングラフ(Scene graph)は、シーン内のオブジェクト間のオブジェクト、属性、関係を明確に表現できるシーンの構造化された表現である。
現在、シーングラフの比較的体系的な調査は行われていない。
論文 参考訳(メタデータ) (2021-03-17T04:24:20Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z) - Learning Visual Commonsense for Robust Scene Graph Generation [49.208518291993705]
シーングラフ生成モデルは、野生における知覚の難しさのために間違いを犯しがちである。
本稿では,データから可視性や直感的な物理などの視覚的常識を自動取得する手法を提案する。
本モデルでは,どの手法よりもコモンセンスを学習し,最先端のシーングラフ生成手法の精度を向上させる。
論文 参考訳(メタデータ) (2020-06-17T03:07:53Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。