論文の概要: Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
- arxiv url: http://arxiv.org/abs/2407.06723v2
- Date: Wed, 26 Feb 2025 22:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:13.597777
- Title: Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
- Title(参考訳): グラフベースのキャプション:リージョンキャプションの相互接続による視覚記述の強化
- Authors: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi,
- Abstract要約: グラフベースのキャプション(GBC)は、様々なタイプのノードを持つラベル付きグラフ構造を用いて画像を記述する。
GBC は,既製のマルチモーダル LLM とオブジェクト検出モデルを用いて自動生成可能であることを示す。
GBCノードのアノテーションを活用することで、さまざまなベンチマークでモデルのパフォーマンスが大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 53.069446715005924
- License:
- Abstract: Humans describe complex scenes with compositionality, using simple text descriptions enriched with links and relationships. While vision-language research has aimed to develop models with compositional understanding capabilities, this is not reflected yet in existing datasets which, for the most part, still use plain text to describe images. In this work, we propose a new annotation strategy, graph-based captioning (GBC) that describes an image using a labeled graph structure, with nodes of various types. The nodes in GBC are created through a two-stage process: first, identifying and describing entity nodes; second, linking these nodes by highlighting \textit{compositions} and \textit{relations} among them. Since \textit{all} GBC nodes hold plain text descriptions, GBC retains the flexibility found in natural language, but can also encode hierarchical information in its edges. We demonstrate that GBC can be produced automatically, using off-the-shelf multimodal LLMs and object detection models, by building a new dataset GBC10M that gathers GBC annotations for about 10M images of the CC12M dataset. Through CLIP training on GBC10M, we show that leveraging GBC nodes' annotations -- particularly those in composition and relation nodes -- significantly boosts the model's performance across various benchmarks compared to when other annotations are used. To further explore the opportunities provided by GBC, we also investigate the use of GBC as middleware for text-to-image generation, and show the extra benefits of incorporating the graph structure in this task. Our code and datasets are released at https://github.com/apple/ml-gbc and https://huggingface.co/graph-based-captions.
- Abstract(参考訳): 人間は複雑なシーンを構成性で記述し、リンクと関係性に富んだ単純なテキスト記述を用いて記述する。
視覚言語による研究は、構成的理解能力を持つモデルを開発することを目的としているが、既存のデータセットにはまだ反映されていない。
そこで本研究では,ラベル付きグラフ構造を用いて画像を記述する,新たなアノテーション戦略であるグラフベースのキャプション(GBC)を提案する。
GBCのノードは、2段階のプロセスによって生成される: ひとつはエンティティノードを識別し、記述し、もうひとつは、それらのノードを、その中の \textit{compositions} と \textit{relations} にハイライトすることでリンクする。
\textit{all} GBCノードは平易なテキスト記述を保持するため、GBCは自然言語で見られる柔軟性を保持するが、そのエッジに階層的な情報をエンコードすることもできる。
CC12Mデータセットの約1000万画像に対してGBCアノテーションを収集する新しいデータセットGBC10Mを構築することにより,市販のマルチモーダルLCMとオブジェクト検出モデルを用いて,GBCを自動的に生成できることを実証した。
GBC10MでのCLIPトレーニングを通じて、GBCノードのアノテーション(特に合成ノードと関係ノードのアノテーション)を活用することで、他のアノテーションの使用時と比較して、さまざまなベンチマークでモデルのパフォーマンスが大幅に向上することを示す。
GBCがもたらす機会をさらに探求するため、GBCをテキスト・ツー・イメージ生成のミドルウェアとして活用することについても検討し、このタスクにグラフ構造を組み込むことによる追加的なメリットを示す。
コードとデータセットはhttps://github.com/apple/ml-gbcとhttps://huggingface.co/graph-based-captionsで公開されています。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - TEG-DB: A Comprehensive Dataset and Benchmark of Textual-Edge Graphs [14.437863803271808]
Text-Attributed Graphs (TAG)は、自然言語記述によるグラフ構造を強化し、データとその相互接続の詳細な描写を容易にする。
既存のTAGデータセットは、主にノードでのみテキスト情報を特徴付けており、エッジは通常、単なるバイナリまたはカテゴリ属性で表される。
このギャップに対処するため、ノードとエッジにリッチなテキスト記述を備えたTextual-Edge Graphsデータセットを導入しました。
論文 参考訳(メタデータ) (2024-06-14T06:22:47Z) - Hierarchical Compression of Text-Rich Graphs via Large Language Models [63.75293588479027]
テキストリッチグラフは、eコマースや学術グラフのようなデータマイニングの文脈で広く使われている。
本稿では,LLMの能力とテキストリッチグラフの構造を整合させる新しい手法であるHiComを紹介する。
HiComは、Eコマースと引用グラフのノード分類において、GNNとLLMのバックボーンよりも優れている。
論文 参考訳(メタデータ) (2024-06-13T07:24:46Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - Say As You Wish: Fine-grained Control of Image Caption Generation with
Abstract Scene Graphs [74.88118535585903]
ユーザ意図をきめ細かいレベルで表現するための抽象シーングラフ構造を提案する。
本稿では,ASGからユーザ意図や意味を認識可能なASG2Captionモデルを提案する。
我々のモデルは、VisualGenomeとMSCOCOの両方のデータセットのベースラインを慎重に設計するよりも、ASGの制御性条件付けが優れている。
論文 参考訳(メタデータ) (2020-03-01T03:34:07Z) - Modeling Global and Local Node Contexts for Text Generation from
Knowledge Graphs [63.12058935995516]
最近のグラフ・トゥ・テキストモデルでは、グローバル・アグリゲーションまたはローカル・アグリゲーションを使用してグラフベースのデータからテキストを生成する。
本稿では,グローバルなノードコンテキストとローカルなノードコンテキストを組み合わせた入力グラフを符号化するニューラルモデルを提案する。
われわれのアプローチは、2つのグラフからテキストへのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2020-01-29T18:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。