Fugu-MT 論文翻訳(概要): Less is More: Toward Zero-Shot Local Scene Graph Generation via Foundation Models

論文の概要: Less is More: Toward Zero-Shot Local Scene Graph Generation via Foundation Models

arxiv url: http://arxiv.org/abs/2310.01356v1
Date: Mon, 2 Oct 2023 17:19:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 20:41:01.810795
Title: Less is More: Toward Zero-Shot Local Scene Graph Generation via Foundation Models
Title（参考訳）: less is more: 基礎モデルによるゼロショットローカルシーングラフ生成に向けて
Authors: Shu Zhao, Huijuan Xu
Abstract要約: ローカルシーングラフ生成という新しいタスクを提案する。部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
参考スコア（独自算出の注目度）: 16.08214739525615
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans inherently recognize objects via selective visual perception, transform specific regions from the visual field into structured symbolic knowledge, and reason their relationships among regions based on the allocation of limited attention resources in line with humans' goals. While it is intuitive for humans, contemporary perception systems falter in extracting structural information due to the intricate cognitive abilities and commonsense knowledge required. To fill this gap, we present a new task called Local Scene Graph Generation. Distinct from the conventional scene graph generation task, which encompasses generating all objects and relationships in an image, our proposed task aims to abstract pertinent structural information with partial objects and their relationships for boosting downstream tasks that demand advanced comprehension and reasoning capabilities. Correspondingly, we introduce zEro-shot Local scEne GrAph geNeraTion (ELEGANT), a framework harnessing foundation models renowned for their powerful perception and commonsense reasoning, where collaboration and information communication among foundation models yield superior outcomes and realize zero-shot local scene graph generation without requiring labeled supervision. Furthermore, we propose a novel open-ended evaluation metric, Entity-level CLIPScorE (ECLIPSE), surpassing previous closed-set evaluation metrics by transcending their limited label space, offering a broader assessment. Experiment results show that our approach markedly outperforms baselines in the open-ended evaluation setting, and it also achieves a significant performance boost of up to 24.58% over prior methods in the close-set setting, demonstrating the effectiveness and powerful reasoning ability of our proposed framework.
Abstract（参考訳）: 人間は本来、選択的視覚知覚を通じて物体を認識し、視覚野から構造化された象徴的知識へと特定の領域を変換し、人間の目標に沿った限られた注意資源の配分に基づいて、地域間の関係を推論する。人間には直感的だが、現代の知覚システムは複雑な認知能力と常識的な知識によって構造情報を抽出するのに支障をきたす。このギャップを埋めるために,ローカルシーングラフ生成という新しいタスクを提案する。画像中のすべてのオブジェクトと関係を包含する従来のシーングラフ生成タスクとは別として,提案するタスクは,関連する構造情報を部分オブジェクトとそれらの関係を抽象化し,高度な理解と推論能力を必要とする下流タスクを促進することを目的としている。一方,zEro-shot Local scEne GrAph geNeraTion (ELEGANT) は,基礎モデルの強力な認識と常識推論で有名な基盤モデルを活用するフレームワークであり,基礎モデル間の協調と情報通信が優れた結果をもたらし,ラベル付き監督を必要としないゼロショットローカルシーングラフ生成を実現する。さらに,限定ラベル空間を超越することで,従来のクローズドセット評価指標を超越し,より広範な評価を提供する,新しいオープンエンド評価指標であるEntity-level CLIPScorE(ECLIPSE)を提案する。実験の結果,提案手法はオープンエンド評価設定におけるベースラインを著しく上回り,クローズセット設定における従来手法よりも最大24.58%の大幅な性能向上を実現し,提案手法の有効性と強力な推論能力を示した。

関連論文リスト

Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。 ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文参考訳（メタデータ） (2024-06-03T12:12:33Z)
3D WholeBody Pose Estimation based on Semantic Graph Attention Network and Distance Information [2.457872341625575]
新たなセマンティックグラフアテンションネットワークは、グローバルコンテキストをキャプチャする自己アテンションの能力の恩恵を受けることができる。本体部分デコーダは、身体の特定のセグメントに関連する情報を抽出し、精製するのを支援する。幾何学的損失(Geometry Loss)は身体の構造的骨格に批判的な制約を与え、モデルの予測が人間の姿勢の自然な限界に合致することを確実にする。
論文参考訳（メタデータ） (2024-06-03T10:59:00Z)
Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification [0.8232137862012223]
本研究では,Large Language Models (LLMs) のドメイン固有情報の生成と提供における可能性について検討する。これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを利用するパイプラインに統合される。その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-03-18T18:08:44Z)
Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-11-02T16:31:49Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)
Learning Attention-based Representations from Multiple Patterns for Relation Prediction in Knowledge Graphs [2.4028383570062606]
AEMPは、エンティティのコンテキスト情報を取得することによって、コンテキスト化された表現を学習するための新しいモデルである。 AEMPは、最先端の関係予測手法よりも優れるか、競合する。
論文参考訳（メタデータ） (2022-06-07T10:53:35Z)
Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文参考訳（メタデータ） (2020-04-29T14:22:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。