Fugu-MT 論文翻訳(概要): Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

論文の概要: Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

arxiv url: http://arxiv.org/abs/2407.06723v1
Date: Tue, 9 Jul 2024 09:55:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 18:26:46.489051
Title: Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
Title（参考訳）: グラフベースのキャプション:リージョンキャプションの相互接続による視覚記述の強化
Authors: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi,
Abstract要約: グラフベースのキャプション(GBC)はラベル付きグラフ構造を用いて画像を記述する。 GBCのノードは、最初の段階でオブジェクト検出と高密度キャプションツールを使用して生成される。 GBCノードのアノテーションを使用することで、下流モデルの性能が大幅に向上することを示す。
参考スコア（独自算出の注目度）: 53.069446715005924
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans describe complex scenes with compositionality, using simple text descriptions enriched with links and relationships. While vision-language research has aimed to develop models with compositional understanding capabilities, this is not reflected yet in existing datasets which, for the most part, still use plain text to describe images. In this work, we propose a new annotation strategy, graph-based captioning (GBC) that describes an image using a labelled graph structure, with nodes of various types. The nodes in GBC are created using, in a first stage, object detection and dense captioning tools nested recursively to uncover and describe entity nodes, further linked together in a second stage by highlighting, using new types of nodes, compositions and relations among entities. Since all GBC nodes hold plain text descriptions, GBC retains the flexibility found in natural language, but can also encode hierarchical information in its edges. We demonstrate that GBC can be produced automatically, using off-the-shelf multimodal LLMs and open-vocabulary detection models, by building a new dataset, GBC10M, gathering GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to showcase the wealth of node captions uncovered by GBC, as measured with CLIP training. We show that using GBC nodes' annotations -- notably those stored in composition and relation nodes -- results in significant performance boost on downstream models when compared to other dataset formats. To further explore the opportunities provided by GBC, we also propose a new attention mechanism that can leverage the entire GBC graph, with encouraging experimental results that show the extra benefits of incorporating the graph structure. Our datasets are released at \url{https://huggingface.co/graph-based-captions}.
Abstract（参考訳）: 人間は複雑なシーンを構成性で記述し、リンクと関係性に富んだ単純なテキスト記述を用いて記述する。視覚言語による研究は、構成的理解能力を持つモデルを開発することを目的としているが、既存のデータセットにはまだ反映されていない。そこで本研究では,ラベル付きグラフ構造を用いて画像を記述する,新たなアノテーション戦略であるグラフベースのキャプション(GBC)を提案する。 GBCのノードは、第1段階で、オブジェクト検出と密接なキャプションツールをネストしてエンティティノードを発見して記述し、さらに第2段階では、新しいタイプのノード、構成、エンティティ間の関係をハイライトしてリンクする。すべてのGBCノードは平易なテキスト記述を保持するため、GBCは自然言語の柔軟性を保持するが、エッジの階層的な情報をエンコードすることもできる。 GBC10Mという新しいデータセットを構築し,約1000万枚のCC12MデータセットのGBCアノテーションを収集することにより,市販のマルチモーダルLLMとオープンボキャブラリ検出モデルを用いて,GBCを自動的に生成できることを実証した。 GBC10M を用いて,CLIP トレーニングで測定した GBC が発見するノードキャプションの豊かさを示す。 GBCノードのアノテーション(特にコンポジションやリレーショナルノードに格納されているアノテーション)を使用することで、他のデータセットフォーマットと比較して、ダウンストリームモデルのパフォーマンスが大幅に向上することを示す。また、GBCがもたらす機会をさらに探求するため、GBCグラフ全体を活用できる新しい注意機構を提案し、グラフ構造を組み込むことによる余分なメリットを示す実験結果を奨励する。データセットは \url{https://huggingface.co/graph-based-captions} でリリースされています。

関連論文リスト

Efficient Text-Attributed Graph Learning through Selective Annotation and Graph Alignment [24.0890725396281]
本稿では,TAG表現学習のための効率的なフレームワークであるGAGAを紹介する。これは、代表ノードとエッジのみにアノテートすることに集中することで、アノテーションの時間とコストを削減する。実験の結果,GAGA分類は最先端の手法と同等以上の精度を達成できることがわかった。
論文参考訳（メタデータ） (2025-06-08T14:34:29Z)
Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文参考訳（メタデータ） (2024-11-25T10:14:10Z)
DTGB: A Comprehensive Benchmark for Dynamic Text-Attributed Graphs [28.340416573162898]
動的テキスト分散グラフ(DyTAG)は、様々な実世界のシナリオで一般的である。幅広い適用性にもかかわらず、DyTAGに合わせたベンチマークデータセットは、顕著に不足している。大規模な時間進化グラフのコレクションである動的テキスト分散グラフベンチマーク(DTGB)を導入する。
論文参考訳（メタデータ） (2024-06-17T20:16:12Z)
UniGLM: Training One Unified Language Model for Text-Attributed Graph Embedding [31.464021556351685]
統一グラフ言語モデル(Unified Graph Language Model、UniGLM)は、グラフ埋め込みモデルであり、ドメイン内およびドメイン間TAGの両方によく一般化する。 UniGLMには、構造的に類似したノードを特定するための適応的な正のサンプル選択技術と、トレーニングを加速するために考案された遅延コントラストモジュールが含まれている。
論文参考訳（メタデータ） (2024-06-17T19:45:21Z)
TEG-DB: A Comprehensive Dataset and Benchmark of Textual-Edge Graphs [14.437863803271808]
Text-Attributed Graphs (TAG)は、自然言語記述によるグラフ構造を強化し、データとその相互接続の詳細な描写を容易にする。既存のTAGデータセットは、主にノードでのみテキスト情報を特徴付けており、エッジは通常、単なるバイナリまたはカテゴリ属性で表される。このギャップに対処するため、ノードとエッジにリッチなテキスト記述を備えたTextual-Edge Graphsデータセットを導入しました。
論文参考訳（メタデータ） (2024-06-14T06:22:47Z)
Hierarchical Compression of Text-Rich Graphs via Large Language Models [63.75293588479027]
テキストリッチグラフは、eコマースや学術グラフのようなデータマイニングの文脈で広く使われている。本稿では,LLMの能力とテキストリッチグラフの構造を整合させる新しい手法であるHiComを紹介する。 HiComは、Eコマースと引用グラフのノード分類において、GNNとLLMのバックボーンよりも優れている。
論文参考訳（メタデータ） (2024-06-13T07:24:46Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文参考訳（メタデータ） (2023-10-19T08:41:21Z)
Empower Text-Attributed Graphs Learning with Large Language Models (LLMs) [5.920353954082262]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。実験では、特に低ショットシナリオにおいて、提案したパラダイムの卓越した性能を示す。
論文参考訳（メタデータ） (2023-10-15T16:04:28Z)
Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder [55.24276913049635]
テキスト分散グラフ上での多重表現学習のための新しいフレームワークMETAGを提案する。既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。学術分野と電子商取引分野の5つのグラフにおいて,9つの下流タスクについて実験を行った。
論文参考訳（メタデータ） (2023-10-10T14:59:22Z)
Clustering-based Image-Text Graph Matching for Domain Generalization [13.277406473107721]
ドメイン不変の視覚表現は、未確認のタスクドメインにうまく一般化できるモデルをトレーニングするために重要である。近年の研究では、テキスト記述には高レベルなクラス識別情報が含まれていることが示されている。我々は、画像領域と対応するテキスト記述間の局所的なアライメントを利用して、ドメイン不変の機能を得ることを提唱する。
論文参考訳（メタデータ） (2023-10-04T10:03:07Z)
KnowGL: Knowledge Generation and Linking from Text [13.407149206621828]
我々は,テキストをABoxアサーションの集合として表される構造化された関係データに変換するツールであるKnowGLを提案する。本稿では,BARTなどの事前学習されたシーケンス・ツー・シーケンス言語モデルを活用することで,シーケンス生成タスクとしてこの問題に対処する。ツールの機能を示すために,入力テキストから抽出したセマンティックデータをナビゲートするUIウィジェットからなるWebアプリケーションを構築した。
論文参考訳（メタデータ） (2022-10-25T12:12:36Z)
Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文参考訳（メタデータ） (2020-11-07T13:23:31Z)
Sequential Graph Convolutional Network for Active Learning [53.99104862192055]
逐次グラフ畳み込みネットワーク(GCN)を用いた新しいプールベースアクティブラーニングフレームワークを提案する。少数のランダムなサンプル画像がシードラベル付き例であるので、グラフのパラメータを学習してラベル付きノードと非ラベル付きノードを区別する。我々はGCNの特性を利用してラベル付けされたものと十分に異なる未ラベルの例を選択する。
論文参考訳（メタデータ） (2020-06-18T00:55:10Z)
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs [74.88118535585903]
ユーザ意図をきめ細かいレベルで表現するための抽象シーングラフ構造を提案する。本稿では,ASGからユーザ意図や意味を認識可能なASG2Captionモデルを提案する。我々のモデルは、VisualGenomeとMSCOCOの両方のデータセットのベースラインを慎重に設計するよりも、ASGの制御性条件付けが優れている。
論文参考訳（メタデータ） (2020-03-01T03:34:07Z)
Modeling Global and Local Node Contexts for Text Generation from Knowledge Graphs [63.12058935995516]
最近のグラフ・トゥ・テキストモデルでは、グローバル・アグリゲーションまたはローカル・アグリゲーションを使用してグラフベースのデータからテキストを生成する。本稿では,グローバルなノードコンテキストとローカルなノードコンテキストを組み合わせた入力グラフを符号化するニューラルモデルを提案する。われわれのアプローチは、2つのグラフからテキストへのデータセットに大きな改善をもたらす。
論文参考訳（メタデータ） (2020-01-29T18:24:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。