論文の概要: GPT-4 for Occlusion Order Recovery
- arxiv url: http://arxiv.org/abs/2509.22383v1
- Date: Fri, 26 Sep 2025 14:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.490195
- Title: GPT-4 for Occlusion Order Recovery
- Title(参考訳): 閉塞性秩序回復のためのGPT-4
- Authors: Kaziwa Saleh, Zhyar Rzgar K Rostam, Sándor Szénási, Zoltán Vámossy,
- Abstract要約: 本稿では,事前学習したGPT-4モデルの高度な性能を利用して注文を推定する手法を提案する。
入力画像と共に特別に設計されたプロンプトを提供することで、GPT-4は画像を分析し、順序予測を生成することができる。
その結果,意味的文脈,視覚的パターン,常識的知識を用いることで,モデルがより正確な順序予測を生成できることが示唆された。
- 参考スコア(独自算出の注目度): 2.7998963147546143
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Occlusion remains a significant challenge for current vision models to robustly interpret complex and dense real-world images and scenes. To address this limitation and to enable accurate prediction of the occlusion order relationship between objects, we propose leveraging the advanced capability of a pre-trained GPT-4 model to deduce the order. By providing a specifically designed prompt along with the input image, GPT-4 can analyze the image and generate order predictions. The response can then be parsed to construct an occlusion matrix which can be utilized in assisting with other occlusion handling tasks and image understanding. We report the results of evaluating the model on COCOA and InstaOrder datasets. The results show that by using semantic context, visual patterns, and commonsense knowledge, the model can produce more accurate order predictions. Unlike baseline methods, the model can reason about occlusion relationships in a zero-shot fashion, which requires no annotated training data and can easily be integrated into occlusion handling frameworks.
- Abstract(参考訳): 隠蔽は、現在の視覚モデルにとって、複雑で密集した現実世界の画像やシーンを強く解釈する重要な課題である。
この制限に対処し、オブジェクト間のオクルージョン順序関係の正確な予測を可能にするために、事前学習したGPT-4モデルの高度な能力を活用して順序を推定する。
入力画像と共に特別に設計されたプロンプトを提供することで、GPT-4は画像を分析し、順序予測を生成することができる。
応答を解析してオクルージョン行列を構築することで、他のオクルージョン処理タスクや画像理解を支援することができる。
また,COCOAおよびInstaOrderデータセットのモデル評価結果について報告する。
その結果,意味的文脈,視覚的パターン,常識的知識を用いることで,モデルがより正確な順序予測を生成できることが示唆された。
ベースラインメソッドとは異なり、モデルはゼロショット方式でオクルージョン関係を推論することができ、アノテートされたトレーニングデータを必要としないため、容易にオクルージョンハンドリングフレームワークに統合できる。
関連論文リスト
- RealCQA-V2 : Visual Premise Proving A Manual COT Dataset for Charts [2.9201864249313383]
グラフ質問応答のプロセスを洗練するための新しいタスクであるVisual Premise Provingを紹介する。
この手法は従来の精度に基づく評価手法から逸脱したものである。
データ検索とグラフの構造的理解の両方に習熟性を示すモデルが提案される。
論文 参考訳(メタデータ) (2024-10-29T19:32:53Z) - Self-Consistent Reasoning-based Aspect-Sentiment Quad Prediction with Extract-Then-Assign Strategy [17.477542644785483]
自己整合性推論に基づくアスペクト知覚四重項予測(SCRAP)を提案する。
SCRAPはそのモデルを最適化し、推論とそれに対応する感情四重項を順番に生成する。
最終的に、SCRAPは、複雑な推論タスクを処理し、一貫性投票によって四重項を正確に予測するモデルの能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-01T08:34:02Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。
本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。
GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文 参考訳(メタデータ) (2020-06-11T16:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。