論文の概要: Explaining Vision and Language through Graphs of Events in Space and
Time
- arxiv url: http://arxiv.org/abs/2309.08612v1
- Date: Tue, 29 Aug 2023 07:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-24 04:13:25.612465
- Title: Explaining Vision and Language through Graphs of Events in Space and
Time
- Title(参考訳): 空間と時間における事象のグラフによる視覚と言語の説明
- Authors: Mihai Masala, Nicolae Cudlenco, Traian Rebedea and Marius Leordeanu
- Abstract要約: 本稿では,空間と時間における事象のグラフ (GEST) を提案する。
GESTは、テキストからビデオを生成するコンテンツのレベルを改善するのに役立つ。
また、意味レベルでテキストの比較を改善することもできる。
- 参考スコア(独自算出の注目度): 9.306753128488587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence makes great advances today and starts to bridge the
gap between vision and language. However, we are still far from understanding,
explaining and controlling explicitly the visual content from a linguistic
perspective, because we still lack a common explainable representation between
the two domains. In this work we come to address this limitation and propose
the Graph of Events in Space and Time (GEST), by which we can represent, create
and explain, both visual and linguistic stories. We provide a theoretical
justification of our model and an experimental validation, which proves that
GEST can bring a solid complementary value along powerful deep learning models.
In particular, GEST can help improve at the content-level the generation of
videos from text, by being easily incorporated into our novel video generation
engine. Additionally, by using efficient graph matching techniques, the GEST
graphs can also improve the comparisons between texts at the semantic level.
- Abstract(参考訳): 人工知能は今日、大きな進歩を遂げ、視覚と言語の間のギャップを埋め始めた。
しかし、2つの領域間の共通的な説明可能な表現が不足しているため、言語的な観点から視覚的な内容の理解、説明、制御にはまだ程遠い。
この本では、この制限に対処し、空間と時間における事象のグラフ(gest)を提案し、ビジュアルストーリーと言語ストーリーの両方を表現し、作成し、説明します。
我々は,このモデルの理論的正当化と実験的な検証を行い,gestが強力なディープラーニングモデルとともに確固たる補完的価値をもたらすことを証明した。
特に、GESTは、新しいビデオ生成エンジンに簡単に組み込むことで、テキストからの動画生成のコンテンツレベルの改善に役立てることができる。
さらに、効率的なグラフマッチング技術を用いることで、GESTグラフは意味レベルでのテキストの比較を改善することができる。
関連論文リスト
- From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - GRENADE: Graph-Centric Language Model for Self-Supervised Representation
Learning on Text-Attributed Graphs [22.282756544376493]
テキスト分散グラフ上での自己教師型表現学習の問題を解決するために,新しいグラフ中心言語モデルGRENADEを開発した。
GRENADEは、事前訓練された言語モデルとグラフニューラルネットワークの両方の相乗効果を利用して、2つの専門的な自己教師付き学習アルゴリズムを最適化する。
提案したグラフ中心の自己教師型学習アルゴリズムは、GRENADEが情報的テキスト意味論だけでなく、テキスト対応グラフの構造的コンテキスト情報を取得するのに有効である。
論文 参考訳(メタデータ) (2023-10-23T17:18:35Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Enhancing Dialogue Generation via Dynamic Graph Knowledge Aggregation [23.54754465832362]
従来のグラフニューラルネットワーク(GNN)では、グラフに渡すメッセージはテキストとは独立している。
このトレーニング体制は、グラフ知識とテキストの間に意味的なギャップをもたらす。
知識グラフ強化対話生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T13:21:00Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - GEST: the Graph of Events in Space and Time as a Common Representation
between Vision and Language [12.061325774210392]
Graphs of Events in Space and Time (GEST)は、視覚と言語の両方の明示的な表現である。
GESTは、セマンティックで完全に説明可能な方法で、テキストとビデオの類似度を測定するために、私たちを後押しします。
また、よく理解されたコンテンツを提供する共通の表現からテキストやビデオを生成することもできます。
論文 参考訳(メタデータ) (2023-05-22T11:38:27Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。