論文の概要: Learning Context-Conditioned Predicate Semantics via Prototype Feedback
- arxiv url: http://arxiv.org/abs/2605.29610v1
- Date: Thu, 28 May 2026 08:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.083776
- Title: Learning Context-Conditioned Predicate Semantics via Prototype Feedback
- Title(参考訳): プロトタイプフィードバックによる文脈条件付き述語意味論の学習
- Authors: NamGyu Jung, Chang Choi,
- Abstract要約: 本稿では,文脈条件付き述語セマンティクスをプロトタイプフィードバックで学習するAlignGを提案する。
VG-150とGQA-200の実験では、最先端のベースラインよりも一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 8.548304753064551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In scene graph generation, a central challenge is modeling polysemous predicates whose meanings shift across contexts. Prior approaches address this issue by decomposing predicates into multiple static prototypes or retrieving semantically similar exemplars. However, these strategies keep predicate representations static and cannot reorganize semantics to reflect image-specific evidence, leading to systematic confusions in ambiguous contexts. We propose AlignG, which learns context-conditioned predicate semantics via prototype feedback. AlignG infers context-conditioned predicate semantics from the relation candidates within each image and feeds the adapted semantics back to recalibrate relation representations. The learning objective anchors this adaptation to global semantic centers, preventing semantic drift while still allowing selective reorganization when the scene provides consistent relational cues. Experiments on VG-150 and GQA-200 show consistent improvements over state-of-the-art baselines, with F@100 improvements of +1.4 on VG-150 and +2.7 on GQA-200 under SGDet. We further visualize per-image prototype similarity shifts and observe coherent context-dependent reorganization where prototypes selectively merge or separate predicates according to scene evidence. The code is available at https://github.com/Namgyu97/AlignG-SGG.pytorch.
- Abstract(参考訳): シーングラフ生成において、中心的な課題は、コンテキスト間で意味が変化する多文述語をモデル化することである。
以前のアプローチでは、述語を複数の静的プロトタイプに分解したり、意味的に類似した例を検索することでこの問題に対処していた。
しかし、これらの戦略は、述語表現を静的に保ち、画像固有の証拠を反映するために意味論を再編成することはできず、曖昧な文脈において体系的な混乱をもたらす。
本稿では,文脈条件付き述語セマンティクスをプロトタイプフィードバックで学習するAlignGを提案する。
AlignGは、各画像内の関係候補から文脈条件付き述語セマンティクスを推論し、適応されたセマンティクスを返却して関係表現を校正する。
学習目的は、この適応をグローバルなセマンティックセンターに固定し、シーンが一貫したリレーショナルキューを提供する場合に、セマンティックドリフトを防止しつつ、選択的な再編成を可能にする。
VG-150とGQA-200の実験では、最先端のベースラインよりも一貫して改善され、F@100はVG-150で+1.4、GQA-200で+2.7がSGDetで改善された。
さらに、画像毎の類似性シフトを可視化し、シーンエビデンスに応じて、プロトタイプが選択的にマージまたは分離された述語をマージするコヒーレントなコンテキスト依存の再構成を観察する。
コードはhttps://github.com/Namgyu97/AlignG-SGG.pytorchで公開されている。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - Panoptic Scene Graph Generation with Semantics-Prototype Learning [23.759498629378772]
Panoptic Scene Graph Generation (PSG)は、オブジェクトを解析し、それらの関係(述語)を予測し、人間の言語と視覚シーンを結びつける。
アノテーションの言語選好と述語間の意味的な重複は、偏りのある述語アノテーションにつながる。
そこで我々はADTransという新しいフレームワークを提案し、バイアス付き述語アノテーションを情報化と統一化に適応的に転送する。
論文 参考訳(メタデータ) (2023-07-28T14:04:06Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Decomposed Prototype Learning for Few-Shot Scene Graph Generation [42.65759272241633]
シーングラフ生成のためのDPL(Decomposed Prototype Learning)モデルを提案する。
まず,表現対象や対象の多様な意味や視覚的パターンを捉えるために,分解可能なプロトタイプ空間を構築した。
論文 参考訳(メタデータ) (2023-03-20T04:54:26Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Detector-Free Weakly Supervised Grounding by Separation [76.65699170882036]
Wakly Supervised phrase-Grounding (WSG)は、画像中の任意のテキストフレーズをローカライズするためにデータを使用するタスクを扱う。
本稿では,事前学習した検出器を使わずにWSGを解くための検出器フリーWSG(DF-WSG)を提案する。
我々は、以前のdf-wsg sotaと比較して最大8.5%の精度向上を示す。
論文 参考訳(メタデータ) (2021-04-20T08:27:31Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。