論文の概要: Towards Lifelong Scene Graph Generation with Knowledge-ware In-context
Prompt Learning
- arxiv url: http://arxiv.org/abs/2401.14626v1
- Date: Fri, 26 Jan 2024 03:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:02:12.009997
- Title: Towards Lifelong Scene Graph Generation with Knowledge-ware In-context
Prompt Learning
- Title(参考訳): 知識ウェアなインコンテキスト・プロンプト学習による生涯シーングラフ生成に向けて
- Authors: Tao He, Tongtong Wu, Dongyang Zhang, Guiduo Duan, Ke Qin, Yuan-Fang Li
- Abstract要約: 画像内のオブジェクトのペア間の視覚的関係を予測するためのシーングラフ生成(SGG)。
この研究は、先行関係予測のスイートに固有の落とし穴に対処しようと試みている。
事前訓練された言語モデルにおける文脈内学習の成果に触発されて、我々のアプローチは関係を予測できる能力をモデルに付与する。
- 参考スコア(独自算出の注目度): 24.98058940030532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene graph generation (SGG) endeavors to predict visual relationships
between pairs of objects within an image. Prevailing SGG methods traditionally
assume a one-off learning process for SGG. This conventional paradigm may
necessitate repetitive training on all previously observed samples whenever new
relationships emerge, mitigating the risk of forgetting previously acquired
knowledge. This work seeks to address this pitfall inherent in a suite of prior
relationship predictions. Motivated by the achievements of in-context learning
in pretrained language models, our approach imbues the model with the
capability to predict relationships and continuously acquire novel knowledge
without succumbing to catastrophic forgetting. To achieve this goal, we
introduce a novel and pragmatic framework for scene graph generation, namely
Lifelong Scene Graph Generation (LSGG), where tasks, such as predicates, unfold
in a streaming fashion. In this framework, the model is constrained to
exclusive training on the present task, devoid of access to previously
encountered training data, except for a limited number of exemplars, but the
model is tasked with inferring all predicates it has encountered thus far.
Rigorous experiments demonstrate the superiority of our proposed method over
state-of-the-art SGG models in the context of LSGG across a diverse array of
metrics. Besides, extensive experiments on the two mainstream benchmark
datasets, VG and Open-Image(v6), show the superiority of our proposed model to
a number of competitive SGG models in terms of continuous learning and
conventional settings. Moreover, comprehensive ablation experiments demonstrate
the effectiveness of each component in our model.
- Abstract(参考訳): 画像内のオブジェクトのペア間の視覚的関係を予測するためのシーングラフ生成(SGG)。
一般的なSGG法は、伝統的にSGGのワンオフ学習プロセスを前提としている。
この従来のパラダイムは、新しい関係が出現するたびに、事前に観察されたすべてのサンプルに対して反復的なトレーニングを必要とする可能性がある。
この研究は、事前の関係予測のスイートに内在するこの落とし穴に対処しようとしている。
事前学習された言語モデルにおける文脈内学習の成果に動機づけられ、このアプローチはモデルに関係を予測し、破滅的な忘れることなく新しい知識を継続的に獲得する能力を与えます。
この目的を達成するために,シーングラフ生成のための新しい実用的フレームワークであるlsgg(lifelong scene graph generation)を導入し,述語などのタスクをストリーミング形式で展開する。
このフレームワークでは、モデルは現在のタスクの排他的トレーニングに制限され、これまで遭遇したトレーニングデータにアクセスできないが、限られた数の例を除いて、これまで遭遇したすべての述語を推測する任務を負う。
厳密な実験により,LSGGの文脈における最先端SGGモデルよりも多種多様な指標を用いて,提案手法の優位性を実証した。
また,vg と open-image(v6) という2つのメインストリームベンチマークデータセットに関する広範な実験により,提案モデルが,連続学習と従来の設定において,多くの競合 sgg モデルよりも優れていることが示された。
さらに、包括的アブレーション実験は、我々のモデルにおける各コンポーネントの有効性を示す。
関連論文リスト
- Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation [10.678727237318503]
Imparは、カリキュラム学習と損失マスキングを利用してバイアス発生と予測モデリングを緩和する新しいトレーニングフレームワークである。
本稿では,STSGモデルの分散シフトに対する堅牢性を評価するために,Robust Spatio-Temporal Scene Graph GenerationとRobust Scene Graph Precipationという2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2024-11-20T06:15:28Z) - Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency [3.351553095054309]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をグラフ構造として表現する。
これまでの研究は、SGG生成時の物体の共起を反映しなかった。
本稿では、オブジェクト間の共起知識と学習可能な用語の周波数逆文書頻度を反映したCooKを提案する。
論文 参考訳(メタデータ) (2024-05-21T09:56:48Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Unbiased Scene Graph Generation in Videos [36.889659781604564]
TEMPURA: temporal consistency and Memory-guided UnceRtainty Attenuation for unbiased dynamic SGG。
TEMPURAはトランスフォーマーシーケンスモデリングによってオブジェクトレベルの時間的整合性を採用し、バイアスのない関係表現を合成することを学ぶ。
提案手法は,既存手法に比べて大きな性能向上(場合によっては最大10%)を達成している。
論文 参考訳(メタデータ) (2023-04-03T06:10:06Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Zero-Shot Scene Graph Relation Prediction through Commonsense Knowledge
Integration [9.203403318435486]
我々は,シーングラフ生成のためのコモンセンス知識を統合するフレームワークであるCommOnsense-integrAted sCenegrapHrElation pRediction (COACHER)を提案する。
具体的には、外部コモンセンス知識グラフにおいて、エンティティ周辺の近傍と経路をモデル化する新しいグラフマイニングパイプラインを開発する。
論文 参考訳(メタデータ) (2021-07-11T16:22:45Z) - Exploring the Limits of Few-Shot Link Prediction in Knowledge Graphs [49.6661602019124]
数発のリンク予測を行うため,本手法の現況を一般化したモデルスペクトルについて検討する。
単純なゼロショットベースライン – 関係性固有の情報を無視する – が驚くほど高いパフォーマンスを実現しているのが分かります。
慎重に構築された合成データセットの実験では、関係の例がいくつかあるだけで、モデルがきめ細かな構造情報を使用するのを基本的に制限することが示されている。
論文 参考訳(メタデータ) (2021-02-05T21:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。