論文の概要: Synthetic Visual Genome
- arxiv url: http://arxiv.org/abs/2506.07643v1
- Date: Mon, 09 Jun 2025 11:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.925482
- Title: Synthetic Visual Genome
- Title(参考訳): 合成ビジュアルゲノム
- Authors: Jae Sung Park, Zixian Ma, Linjie Li, Chenhao Zheng, Cheng-Yu Hsieh, Ximing Lu, Khyathi Chandu, Quan Kong, Norimasa Kobori, Ali Farhadi, Yejin Choi, Ranjay Krishna,
- Abstract要約: 本稿では,高品質な高次グラフを大規模に構築できる密接な注釈付き関係を持つ命令設計法であるROBINを紹介する。
我々のデータセットは合計146K画像と2.6Mオブジェクトの5.6M関係を含んでいる。
ROBIN-3Bモデルは300万件未満のインスタンスでトレーニングされているにもかかわらず、関係理解ベンチマークで3億件以上のインスタンスでトレーニングされた類似サイズのモデルを上回っている。
- 参考スコア(独自算出の注目度): 88.00433979509218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning over visual relationships-spatial, functional, interactional, social, etc.-is considered to be a fundamental component of human cognition. Yet, despite the major advances in visual comprehension in multimodal language models (MLMs), precise reasoning over relationships and their generations remains a challenge. We introduce ROBIN: an MLM instruction-tuned with densely annotated relationships capable of constructing high-quality dense scene graphs at scale. To train ROBIN, we curate SVG, a synthetic scene graph dataset by completing the missing relations of selected objects in existing scene graphs using a teacher MLM and a carefully designed filtering process to ensure high-quality. To generate more accurate and rich scene graphs at scale for any image, we introduce SG-EDIT: a self-distillation framework where GPT-4o further refines ROBIN's predicted scene graphs by removing unlikely relations and/or suggesting relevant ones. In total, our dataset contains 146K images and 5.6M relationships for 2.6M objects. Results show that our ROBIN-3B model, despite being trained on less than 3 million instances, outperforms similar-size models trained on over 300 million instances on relationship understanding benchmarks, and even surpasses larger models up to 13B parameters. Notably, it achieves state-of-the-art performance in referring expression comprehension with a score of 88.9, surpassing the previous best of 87.4. Our results suggest that training on the refined scene graph data is crucial to maintaining high performance across diverse visual reasoning task.
- Abstract(参考訳): 視覚的関係(空間的、機能的、相互作用的、社会的など)に対する推論は、人間の認知の基本的な構成要素であると考えられている。
しかし、マルチモーダル言語モデル(MLM)における視覚的理解の大きな進歩にもかかわらず、関係性とその世代に対する正確な推論は依然として課題である。
本稿では,高精細なシーングラフを大規模に構築可能な,高精細なアノテート関係を持つMLMインストラクションであるROBINを紹介する。
ROBINをトレーニングするために,教師のMLMと慎重に設計されたフィルタリングプロセスを用いて,既存のシーングラフにおける選択されたオブジェクトの欠落関係を完了し,高品質を保証し,SVG,合成シーングラフデータセットをキュレートする。
画像に対してより正確でリッチなシーングラフを生成するために,GPT-4oがROBINの予測されたシーングラフをさらに洗練する自己蒸留フレームワークであるSG-EDITを導入する。
我々のデータセットは合計146K画像と2.6Mオブジェクトの5.6M関係を含んでいる。
その結果、RoBIN-3Bモデルは300万件未満のインスタンスでトレーニングされているにもかかわらず、関係理解ベンチマークで3億件以上のインスタンスでトレーニングされた類似サイズのモデルよりも優れており、最大13Bパラメータのより大きなモデルよりも優れています。
特に、88.9のスコアで表現理解を参照する際の最先端性能が87.4のスコアを上回っている。
この結果から,多様な視覚的推論タスクにおいて,シーングラフデータの訓練がハイパフォーマンス維持に不可欠であることが示唆された。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation [13.058196732927135]
シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的な関係をキャプチャすることを目的としている。
既存のTransformerベースのメソッドは、オブジェクトに対して異なるクエリを使用し、述語するか、関係トリプレットに対して全体的クエリを利用する。
本稿では,シーングラフ検出を直接グラフ予測問題とみなす,DSGGと呼ばれるトランスフォーマーベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T23:43:30Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Scene Graph Generation via Conditional Random Fields [14.282277071380447]
画像中のオブジェクトのインスタンスとその対応する関係を予測するための新しいシーングラフ生成モデルを提案する。
我々のモデルであるSG-CRFは、関係3重項における対象と対象の逐次順序と、シーングラフにおけるオブジェクトノードインスタンスと関係ノードのセマンティック互換性を効率よく学習する。
論文 参考訳(メタデータ) (2018-11-20T04:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。