論文の概要: Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models
- arxiv url: http://arxiv.org/abs/2310.01356v1
- Date: Mon, 2 Oct 2023 17:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:41:01.810795
- Title: Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models
- Title(参考訳): less is more: 基礎モデルによるゼロショットローカルシーングラフ生成に向けて
- Authors: Shu Zhao, Huijuan Xu
- Abstract要約: ローカルシーングラフ生成という新しいタスクを提案する。
部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。
我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
- 参考スコア(独自算出の注目度): 16.08214739525615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans inherently recognize objects via selective visual perception,
transform specific regions from the visual field into structured symbolic
knowledge, and reason their relationships among regions based on the allocation
of limited attention resources in line with humans' goals. While it is
intuitive for humans, contemporary perception systems falter in extracting
structural information due to the intricate cognitive abilities and commonsense
knowledge required. To fill this gap, we present a new task called Local Scene
Graph Generation. Distinct from the conventional scene graph generation task,
which encompasses generating all objects and relationships in an image, our
proposed task aims to abstract pertinent structural information with partial
objects and their relationships for boosting downstream tasks that demand
advanced comprehension and reasoning capabilities. Correspondingly, we
introduce zEro-shot Local scEne GrAph geNeraTion (ELEGANT), a framework
harnessing foundation models renowned for their powerful perception and
commonsense reasoning, where collaboration and information communication among
foundation models yield superior outcomes and realize zero-shot local scene
graph generation without requiring labeled supervision. Furthermore, we propose
a novel open-ended evaluation metric, Entity-level CLIPScorE (ECLIPSE),
surpassing previous closed-set evaluation metrics by transcending their limited
label space, offering a broader assessment. Experiment results show that our
approach markedly outperforms baselines in the open-ended evaluation setting,
and it also achieves a significant performance boost of up to 24.58% over prior
methods in the close-set setting, demonstrating the effectiveness and powerful
reasoning ability of our proposed framework.
- Abstract(参考訳): 人間は本来、選択的視覚知覚を通じて物体を認識し、視覚野から構造化された象徴的知識へと特定の領域を変換し、人間の目標に沿った限られた注意資源の配分に基づいて、地域間の関係を推論する。
人間には直感的だが、現代の知覚システムは複雑な認知能力と常識的な知識によって構造情報を抽出するのに支障をきたす。
このギャップを埋めるために,ローカルシーングラフ生成という新しいタスクを提案する。
画像中のすべてのオブジェクトと関係を包含する従来のシーングラフ生成タスクとは別として,提案するタスクは,関連する構造情報を部分オブジェクトとそれらの関係を抽象化し,高度な理解と推論能力を必要とする下流タスクを促進することを目的としている。
一方,zEro-shot Local scEne GrAph geNeraTion (ELEGANT) は,基礎モデルの強力な認識と常識推論で有名な基盤モデルを活用するフレームワークであり,基礎モデル間の協調と情報通信が優れた結果をもたらし,ラベル付き監督を必要としないゼロショットローカルシーングラフ生成を実現する。
さらに,限定ラベル空間を超越することで,従来のクローズドセット評価指標を超越し,より広範な評価を提供する,新しいオープンエンド評価指標であるEntity-level CLIPScorE(ECLIPSE)を提案する。
実験の結果,提案手法はオープンエンド評価設定におけるベースラインを著しく上回り,クローズセット設定における従来手法よりも最大24.58%の大幅な性能向上を実現し,提案手法の有効性と強力な推論能力を示した。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - 3D WholeBody Pose Estimation based on Semantic Graph Attention Network and Distance Information [2.457872341625575]
新たなセマンティックグラフアテンションネットワークは、グローバルコンテキストをキャプチャする自己アテンションの能力の恩恵を受けることができる。
本体部分デコーダは、身体の特定のセグメントに関連する情報を抽出し、精製するのを支援する。
幾何学的損失(Geometry Loss)は身体の構造的骨格に批判的な制約を与え、モデルの予測が人間の姿勢の自然な限界に合致することを確実にする。
論文 参考訳(メタデータ) (2024-06-03T10:59:00Z) - Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification [0.8232137862012223]
本研究では,Large Language Models (LLMs) のドメイン固有情報の生成と提供における可能性について検討する。
これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを利用するパイプラインに統合される。
その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T18:08:44Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Learning Attention-based Representations from Multiple Patterns for
Relation Prediction in Knowledge Graphs [2.4028383570062606]
AEMPは、エンティティのコンテキスト情報を取得することによって、コンテキスト化された表現を学習するための新しいモデルである。
AEMPは、最先端の関係予測手法よりも優れるか、競合する。
論文 参考訳(メタデータ) (2022-06-07T10:53:35Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。