論文の概要: Assisting Scene Graph Generation with Self-Supervision
- arxiv url: http://arxiv.org/abs/2008.03555v1
- Date: Sat, 8 Aug 2020 16:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:03:43.879391
- Title: Assisting Scene Graph Generation with Self-Supervision
- Title(参考訳): 自己スーパービジョンによるシーングラフ生成支援
- Authors: Sandeep Inuganti, Vineeth N Balasubramanian
- Abstract要約: 本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。
比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 21.89909688056478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in scene graph generation has quickly gained traction in the past
few years because of its potential to help in downstream tasks like visual
question answering, image captioning, etc. Many interesting approaches have
been proposed to tackle this problem. Most of these works have a pre-trained
object detection model as a preliminary feature extractor. Therefore, getting
object bounding box proposals from the object detection model is relatively
cheaper. We take advantage of this ready availability of bounding box
annotations produced by the pre-trained detector. We propose a set of three
novel yet simple self-supervision tasks and train them as auxiliary multi-tasks
to the main model. While comparing, we train the base-model from scratch with
these self-supervision tasks, we achieve state-of-the-art results in all the
metrics and recall settings. We also resolve some of the confusion between two
types of relationships: geometric and possessive, by training the model with
the proposed self-supervision losses. We use the benchmark dataset, Visual
Genome to conduct our experiments and show our results.
- Abstract(参考訳): シーングラフ生成の研究は、視覚質問応答や画像キャプションといった下流タスクに役立つ可能性があるため、ここ数年で急速に注目を集めている。
この問題に取り組むために多くの興味深いアプローチが提案されている。
これらの作品のほとんどは予備的特徴抽出器として事前学習された物体検出モデルを持っている。
したがって、オブジェクト検出モデルからオブジェクト境界ボックスの提案を得るのは比較的安価である。
我々は、事前訓練された検出器によって生成されたバウンディングボックスアノテーションを利用できるようにしている。
本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。
比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。
また,提案する自己スーパービジョン損失をモデルに訓練することで,幾何学的関係と所有的関係の混同を解消する。
ベンチマークデータセットであるVisual Genomeを使って実験を行い、その結果を示します。
関連論文リスト
- Pre-Trained Model Recommendation for Downstream Fine-tuning [22.343011779348682]
モデル選択は、市販の事前訓練されたモデルをランク付けし、新しいターゲットタスクに最も適したモデルを選択することを目的としている。
既存のモデル選択テクニックはスコープ内で制約されることが多く、モデルとタスク間の微妙な関係を見落としてしまう傾向があります。
我々は,多種多様な大規模モデルリポジトリを探索する実用的フレームワーク textbfFennec を提案する。
論文 参考訳(メタデータ) (2024-03-11T02:24:32Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual
Context for Image Captioning [25.728621355173626]
現在の方法の鍵となる制限は、モデルの出力が対象検出器の出力にのみ条件付けられることである。
オブジェクト関係などの欠落情報を表す補助的な入力を追加することを提案する。
我々は,画像キャプションにおける手法の有効性を検証し,各コンポーネントの徹底的な分析と,事前学習したマルチモーダルモデルの重要性を検証し,現状よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-05-09T15:05:24Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文 参考訳(メタデータ) (2021-08-26T11:41:03Z) - Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation [75.1682163844354]
我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
論文 参考訳(メタデータ) (2021-04-13T06:41:11Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。