論文の概要: ALF: Adaptive Label Finetuning for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2312.17425v2
- Date: Thu, 23 May 2024 06:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 11:46:15.504890
- Title: ALF: Adaptive Label Finetuning for Scene Graph Generation
- Title(参考訳): ALF: シーングラフ生成のための適応ラベルファインタニング
- Authors: Qishen Chen, Jianzhi Liu, Xinyu Lyu, Lianli Gao, Heng Tao Shen, Jingkuan Song,
- Abstract要約: 画像中の被写体と物体の関係を予測するためのシーングラフ生成の試み
関係の長期分布は、しばしば粗いラベルの偏りの予測につながり、SGGにおいて大きなハードルとなる。
我々はSGGに1段階のデータ転送パイプラインを導入し、ALF(Adaptive Label Finetuning)と呼ばれ、追加のトレーニングセッションを不要にする。
ALFは一般的なSGG法であるMotifに比べてmR@100が16%改善され、最先端のIETransに比べて計算コストは6%増加した。
- 参考スコア(独自算出の注目度): 116.59868289196157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) endeavors to predict the relationships between subjects and objects in a given image. Nevertheless, the long-tail distribution of relations often leads to biased prediction on coarse labels, presenting a substantial hurdle in SGG. To address this issue, researchers focus on unbiased SGG and introduce data transfer methods to transfer coarse-grained predicates into fine-grained ones across the entire dataset. However, these methods encounter two primary challenges: 1) They overlook the inherent context constraints imposed by subject-object pairs, leading to erroneous relations transfer. 2) Additional retraining process are required after the data transfer, which incurs substantial computational costs. To overcome these limitations, we introduce the first plug-and-play one-stage data transfer pipeline in SGG, termed Adaptive Label Finetuning (ALF), which eliminates the need for extra retraining sessions and meanwhile significantly enhance models' relation recognition capability across various SGG benchmark approaches. Specifically, ALF consists of two components: Adaptive Label Construction (ALC) and Adaptive Iterative Learning (AIL). By imposing Predicate-Context Constraints within relation space, ALC adaptively re-ranks and selects candidate relations in reference to model's predictive logits utilizing the Restriction-Based Judgment techniques, achieving robust relation transfer. Supervised with labels transferred by ALC, AIL iteratively finetunes the SGG models in an auto-regressive manner, which mitigates the substantial computational costs arising from the retraining process. Extensive experiments demonstrate that ALF achieves a 16% improvement in mR@100 compared to the typical SGG method Motif, with only a 6% increase in calculation costs compared to the state-of-the-art method IETrans.
- Abstract(参考訳): シーングラフ生成(SGG)は、与えられた画像内の被写体とオブジェクトの関係を予測する。
それでも、関係の長い尾の分布は、しばしば粗いラベルの偏りの予測をもたらし、SGGにおいてかなりのハードルとなる。
この問題に対処するため、研究者たちは偏見のないSGGに注目し、データセット全体にわたって粗い粒度の述語をきめ細かいものに転送するデータ転送手法を導入している。
しかし、これらの手法は2つの主要な課題に直面する。
1) 対象と対象のペアが課す固有の文脈制約を見落とし, 誤った関係の移譲につながる。
2)データ転送後に新たな再学習プロセスが必要となり,計算コストが大幅に増大する。
これらの制限を克服するため、SGGにおける最初のプラグアンドプレイワンステージデータ転送パイプラインであるAdaptive Label Finetuning (ALF)を導入する。
具体的には、ALFはAdaptive Label Construction(ALC)とAdaptive Iterative Learning(AIL)の2つのコンポーネントから構成される。
関係空間内での述語-文脈制約を付与することにより、ALCはモデルの予測ロジットに関する候補関係を適応的に再ランクし、選択し、ロバストな関係伝達を達成する。
ALCによって転送されたラベルで監督され、AILは自動回帰的な方法でSGGモデルを反復的に微調整し、再学習プロセスから生じるかなりの計算コストを軽減した。
大規模な実験により、ALFは一般的なSGG法であるMotifに比べてmR@100が16%向上し、最先端のIETransに比べて計算コストが6%上昇した。
関連論文リスト
- Fine-Grained Scene Graph Generation via Sample-Level Bias Prediction [12.319354506916547]
微粒なシーングラフ生成のためのサンプルレベルバイアス予測(SBP)手法を提案する。
まず、古典的なSGGモデルを訓練し、補正バイアスセットを構築する。
そこで我々は,BGAN(Bias-Oriented Generative Adversarial Network)を考案し,構築した補正バイアスを予測する。
論文 参考訳(メタデータ) (2024-07-27T13:49:06Z) - BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation [4.977568882858193]
シーングラフ生成(SGG)は、その構成特性のため、依然として困難な課題である。
従来のアプローチでは、エンドツーエンドで学習することで予測効率が向上する。
本稿では,SGGのための新しい双方向条件付け分解法を提案し,実体と述語との効率的な相互作用を導入する。
論文 参考訳(メタデータ) (2024-07-26T13:02:48Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - DDGHM: Dual Dynamic Graph with Hybrid Metric Training for Cross-Domain
Sequential Recommendation [15.366783212837515]
Sequential Recommendation (SR) は、ユーザがアイテム間を移動する方法をモデル化することによって、ユーザの行動の進化パターンを特徴付ける。
この問題を解決するため、我々はクロスドメインシーケンスレコメンデーション(CDSR)に焦点を当てる。
本稿では,CDSR問題のための新しいフレームワークであるDDGHMを提案する。
論文 参考訳(メタデータ) (2022-09-21T07:53:06Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。