論文の概要: Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
- arxiv url: http://arxiv.org/abs/2407.06723v1
- Date: Tue, 9 Jul 2024 09:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:26:46.489051
- Title: Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
- Title(参考訳): グラフベースのキャプション:リージョンキャプションの相互接続による視覚記述の強化
- Authors: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi,
- Abstract要約: グラフベースのキャプション(GBC)はラベル付きグラフ構造を用いて画像を記述する。
GBCのノードは、最初の段階でオブジェクト検出と高密度キャプションツールを使用して生成される。
GBCノードのアノテーションを使用することで、下流モデルの性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 53.069446715005924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans describe complex scenes with compositionality, using simple text descriptions enriched with links and relationships. While vision-language research has aimed to develop models with compositional understanding capabilities, this is not reflected yet in existing datasets which, for the most part, still use plain text to describe images. In this work, we propose a new annotation strategy, graph-based captioning (GBC) that describes an image using a labelled graph structure, with nodes of various types. The nodes in GBC are created using, in a first stage, object detection and dense captioning tools nested recursively to uncover and describe entity nodes, further linked together in a second stage by highlighting, using new types of nodes, compositions and relations among entities. Since all GBC nodes hold plain text descriptions, GBC retains the flexibility found in natural language, but can also encode hierarchical information in its edges. We demonstrate that GBC can be produced automatically, using off-the-shelf multimodal LLMs and open-vocabulary detection models, by building a new dataset, GBC10M, gathering GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to showcase the wealth of node captions uncovered by GBC, as measured with CLIP training. We show that using GBC nodes' annotations -- notably those stored in composition and relation nodes -- results in significant performance boost on downstream models when compared to other dataset formats. To further explore the opportunities provided by GBC, we also propose a new attention mechanism that can leverage the entire GBC graph, with encouraging experimental results that show the extra benefits of incorporating the graph structure. Our datasets are released at \url{https://huggingface.co/graph-based-captions}.
- Abstract(参考訳): 人間は複雑なシーンを構成性で記述し、リンクと関係性に富んだ単純なテキスト記述を用いて記述する。
視覚言語による研究は、構成的理解能力を持つモデルを開発することを目的としているが、既存のデータセットにはまだ反映されていない。
そこで本研究では,ラベル付きグラフ構造を用いて画像を記述する,新たなアノテーション戦略であるグラフベースのキャプション(GBC)を提案する。
GBCのノードは、第1段階で、オブジェクト検出と密接なキャプションツールをネストしてエンティティノードを発見して記述し、さらに第2段階では、新しいタイプのノード、構成、エンティティ間の関係をハイライトしてリンクする。
すべてのGBCノードは平易なテキスト記述を保持するため、GBCは自然言語の柔軟性を保持するが、エッジの階層的な情報をエンコードすることもできる。
GBC10Mという新しいデータセットを構築し,約1000万枚のCC12MデータセットのGBCアノテーションを収集することにより,市販のマルチモーダルLLMとオープンボキャブラリ検出モデルを用いて,GBCを自動的に生成できることを実証した。
GBC10M を用いて,CLIP トレーニングで測定した GBC が発見するノードキャプションの豊かさを示す。
GBCノードのアノテーション(特にコンポジションやリレーショナルノードに格納されているアノテーション)を使用することで、他のデータセットフォーマットと比較して、ダウンストリームモデルのパフォーマンスが大幅に向上することを示す。
また、GBCがもたらす機会をさらに探求するため、GBCグラフ全体を活用できる新しい注意機構を提案し、グラフ構造を組み込むことによる余分なメリットを示す実験結果を奨励する。
データセットは \url{https://huggingface.co/graph-based-captions} でリリースされています。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - TEG-DB: A Comprehensive Dataset and Benchmark of Textual-Edge Graphs [14.437863803271808]
Text-Attributed Graphs (TAG)は、自然言語記述によるグラフ構造を強化し、データとその相互接続の詳細な描写を容易にする。
既存のTAGデータセットは、主にノードでのみテキスト情報を特徴付けており、エッジは通常、単なるバイナリまたはカテゴリ属性で表される。
このギャップに対処するため、ノードとエッジにリッチなテキスト記述を備えたTextual-Edge Graphsデータセットを導入しました。
論文 参考訳(メタデータ) (2024-06-14T06:22:47Z) - Hierarchical Compression of Text-Rich Graphs via Large Language Models [63.75293588479027]
テキストリッチグラフは、eコマースや学術グラフのようなデータマイニングの文脈で広く使われている。
本稿では,LLMの能力とテキストリッチグラフの構造を整合させる新しい手法であるHiComを紹介する。
HiComは、Eコマースと引用グラフのノード分類において、GNNとLLMのバックボーンよりも優れている。
論文 参考訳(メタデータ) (2024-06-13T07:24:46Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - Empower Text-Attributed Graphs Learning with Large Language Models
(LLMs) [5.920353954082262]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。
エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。
実験では、特に低ショットシナリオにおいて、提案したパラダイムの卓越した性能を示す。
論文 参考訳(メタデータ) (2023-10-15T16:04:28Z) - Say As You Wish: Fine-grained Control of Image Caption Generation with
Abstract Scene Graphs [74.88118535585903]
ユーザ意図をきめ細かいレベルで表現するための抽象シーングラフ構造を提案する。
本稿では,ASGからユーザ意図や意味を認識可能なASG2Captionモデルを提案する。
我々のモデルは、VisualGenomeとMSCOCOの両方のデータセットのベースラインを慎重に設計するよりも、ASGの制御性条件付けが優れている。
論文 参考訳(メタデータ) (2020-03-01T03:34:07Z) - Modeling Global and Local Node Contexts for Text Generation from
Knowledge Graphs [63.12058935995516]
最近のグラフ・トゥ・テキストモデルでは、グローバル・アグリゲーションまたはローカル・アグリゲーションを使用してグラフベースのデータからテキストを生成する。
本稿では,グローバルなノードコンテキストとローカルなノードコンテキストを組み合わせた入力グラフを符号化するニューラルモデルを提案する。
われわれのアプローチは、2つのグラフからテキストへのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2020-01-29T18:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。