論文の概要: GROOViST: A Metric for Grounding Objects in Visual Storytelling
- arxiv url: http://arxiv.org/abs/2310.17770v1
- Date: Thu, 26 Oct 2023 20:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:34:39.951859
- Title: GROOViST: A Metric for Grounding Objects in Visual Storytelling
- Title(参考訳): GROOViST:ビジュアルストーリーテリングにおけるオブジェクトのグラウンド化基準
- Authors: Aditya K Surikuchi, Sandro Pezzelle, Raquel Fern\'andez
- Abstract要約: 我々は、画像に示される実体について、物語がどの程度にあるかを評価することに集中する。
本稿では,視覚的接地における相互依存,時間的ミスアライメント,人間の直感を考慮に入れた新しい評価ツールGROOViSTを提案する。
- 参考スコア(独自算出の注目度): 3.650221968508535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A proper evaluation of stories generated for a sequence of images -- the task
commonly referred to as visual storytelling -- must consider multiple aspects,
such as coherence, grammatical correctness, and visual grounding. In this work,
we focus on evaluating the degree of grounding, that is, the extent to which a
story is about the entities shown in the images. We analyze current metrics,
both designed for this purpose and for general vision-text alignment. Given
their observed shortcomings, we propose a novel evaluation tool, GROOViST, that
accounts for cross-modal dependencies, temporal misalignments (the fact that
the order in which entities appear in the story and the image sequence may not
match), and human intuitions on visual grounding. An additional advantage of
GROOViST is its modular design, where the contribution of each component can be
assessed and interpreted individually.
- Abstract(参考訳): 視覚的ストーリーテリングと呼ばれる一連の画像に対して生成されたストーリーの適切な評価は、コヒーレンス、文法的正確性、視覚的グラウンドニングといった複数の側面を考慮する必要がある。
本研究は,画像に表示されたエンティティについて,ストーリーがどの程度の程度であるかという,グラウンドングの程度を評価することに焦点を当てる。
我々は、この目的と一般的な視覚テキストアライメントの両方のために、現在のメトリクスを分析します。
それらの観察された欠点を考慮し,クロスモーダルな依存関係,時間的不一致(ストーリー内に存在するエンティティと画像シーケンスが一致しないという事実),視覚接地における人間の直観を考慮し,新たな評価ツールgroovistを提案する。
GROOViSTのさらなる利点はモジュール設計であり、各コンポーネントのコントリビューションを個別に評価し解釈することができる。
関連論文リスト
- Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Quantitative analysis of visual representation of sign elements in
COVID-19 context [2.9409535911474967]
本稿では, コンピュータ解析を用いて, 流行に言及した視覚的創造物に使用される要素を定量的に分析することを提案する。
The Covid Art MuseumのInstagramアカウントにまとめられた画像は、グローバルイベントに関する主観的な体験を表すために使用されるさまざまな要素を分析するために使用される。
本研究は, 画像に繰り返される要素が, 物語を創出するための要素と, サンプルで確立された関連関係を明らかにする。
論文 参考訳(メタデータ) (2021-12-15T15:54:53Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Towards Coherent Visual Storytelling with Ordered Image Attention [73.422281039592]
我々は秩序あるイメージアテンション(OIA)とイメージセンテンスアテンション(ISA)を開発する。
OIAは、シーケンスの他の画像における文対応画像と重要な領域間の相互作用をモデル化する。
ストーリーの文を生成するために、イメージ・センス・アテンション(ISA)を用いて重要なイメージアテンション・ベクターをハイライトする。
論文 参考訳(メタデータ) (2021-08-04T17:12:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。