論文の概要: GEST: the Graph of Events in Space and Time as a Common Representation
between Vision and Language
- arxiv url: http://arxiv.org/abs/2305.12940v1
- Date: Mon, 22 May 2023 11:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:32:01.467654
- Title: GEST: the Graph of Events in Space and Time as a Common Representation
between Vision and Language
- Title(参考訳): GEST: 視覚と言語間の共通表現としての空間と時間における事象のグラフ
- Authors: Mihai Masala, Nicolae Cudlenco, Traian Rebedea, Marius Leordeanu
- Abstract要約: Graphs of Events in Space and Time (GEST)は、視覚と言語の両方の明示的な表現である。
GESTは、セマンティックで完全に説明可能な方法で、テキストとビデオの類似度を測定するために、私たちを後押しします。
また、よく理解されたコンテンツを提供する共通の表現からテキストやビデオを生成することもできます。
- 参考スコア(独自算出の注目度): 12.061325774210392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the essential human skills is the ability to seamlessly build an inner
representation of the world. By exploiting this representation, humans are
capable of easily finding consensus between visual, auditory and linguistic
perspectives. In this work, we set out to understand and emulate this ability
through an explicit representation for both vision and language - Graphs of
Events in Space and Time (GEST). GEST alows us to measure the similarity
between texts and videos in a semantic and fully explainable way, through graph
matching. It also allows us to generate text and videos from a common
representation that provides a well understood content. In this work we show
that the graph matching similarity metrics based on GEST outperform classical
text generation metrics and can also boost the performance of state of art,
heavily trained metrics.
- Abstract(参考訳): 人間のスキルの重要な1つは、世界の内部表現をシームレスに構築する能力である。
この表現を利用することで、人間は視覚的、聴覚的、言語的視点のコンセンサスを容易に見つけることができる。
本研究では、空間と時間における事象のグラフ(GEST)というビジョンと言語の両方の明示的な表現を通じて、この能力を理解し、エミュレートすることにした。
GESTは、グラフマッチングを通じて、意味的かつ完全に説明可能な方法で、テキストとビデオの類似性を計測する。
また、よく理解されたコンテンツを提供する共通の表現からテキストやビデオを生成することもできます。
本稿では,gestに基づくグラフマッチング類似度メトリクスが従来のテキスト生成メトリクスを上回っており,高度に訓練された最先端のメトリクスのパフォーマンスも向上できることを示す。
関連論文リスト
- ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Explaining Vision and Language through Graphs of Events in Space and
Time [9.306753128488587]
本稿では,空間と時間における事象のグラフ (GEST) を提案する。
GESTは、テキストからビデオを生成するコンテンツのレベルを改善するのに役立つ。
また、意味レベルでテキストの比較を改善することもできる。
論文 参考訳(メタデータ) (2023-08-29T07:25:06Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - Joint Representations of Text and Knowledge Graphs for Retrieval and
Evaluation [15.55971302563369]
ニューラルネットワークの重要な特徴は、オブジェクト(テキスト、画像、スピーチなど)のセマンティックなベクトル表現を生成し、類似したオブジェクトがベクトル空間内で互いに近接していることを保証することである。
多くの研究は、他のモダリティの表現の学習に焦点を合わせてきたが、テキストや知識ベース要素の整列したクロスモーダル表現は存在しない。
論文 参考訳(メタデータ) (2023-02-28T17:39:43Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。