Fugu-MT 論文翻訳(概要): Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling

論文の概要: Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling

arxiv url: http://arxiv.org/abs/2102.02963v1
Date: Fri, 5 Feb 2021 02:15:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-08 21:00:07.799171
Title: Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling
Title（参考訳）: 多様な視覚的ストーリーテリングのための概念選択を意識したコモンセンス知識
Authors: Hong Chen, Yifei Huang, Hiroya Takamura, Hideki Nakayama
Abstract要約: 画像から情報的コンテンツを保存しながら、生成したストーリーの多様性を高めることを目的としている。大規模な事前学習モデルを用いて、概念やイメージをフルストーリーに変換する。
参考スコア（独自算出の注目度）: 30.347595589285138
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual storytelling is a task of generating relevant and interesting stories for given image sequences. In this work we aim at increasing the diversity of the generated stories while preserving the informative content from the images. We propose to foster the diversity and informativeness of a generated story by using a concept selection module that suggests a set of concept candidates. Then, we utilize a large scale pre-trained model to convert concepts and images into full stories. To enrich the candidate concepts, a commonsense knowledge graph is created for each image sequence from which the concept candidates are proposed. To obtain appropriate concepts from the graph, we propose two novel modules that consider the correlation among candidate concepts and the image-concept correlation. Extensive automatic and human evaluation results demonstrate that our model can produce reasonable concepts. This enables our model to outperform the previous models by a large margin on the diversity and informativeness of the story, while retaining the relevance of the story to the image sequence.
Abstract（参考訳）: ビジュアルストーリーテリングは、特定の画像シーケンスに関連する興味深いストーリーを生成するタスクです。本研究は,画像から情報的コンテンツを保存しながら,生成したストーリーの多様性を高めることを目的とする。概念候補の集合を示唆する概念選択モジュールを用いて、生成したストーリーの多様性と情報性を育成することを提案する。次に,大規模事前学習モデルを用いて概念とイメージをフルストーリーに変換する。候補概念を豊かにするために、コンセプト候補が提案される画像シーケンスごとに共通感覚知識グラフが作成されます。グラフから適切な概念を得るため,候補概念間の相関と画像概念相関を考慮した2つの新しいモジュールを提案する。広範な自動および人間の評価の結果は私達のモデルが適正概念を作り出すことができることを示します。これにより、私たちのモデルは、ストーリーと画像シーケンスの関連性を維持しながら、ストーリーの多様性とインフォメーション性に大きなマージンで、以前のモデルを上回ることができる。

関連論文リスト

OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-12-16T18:59:52Z)
Explainable Concept Generation through Vision-Language Preference Learning for Understanding Neural Networks' Internal Representations [7.736445799116692]
概念に基づく手法は、ディープニューラルネットワークをポストホックで説明するのに一般的な選択肢となっている。視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。提案手法は,多様な概念を効率的にかつ確実に表現する能力を示す。
論文参考訳（メタデータ） (2024-08-24T02:26:42Z)
TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文参考訳（メタデータ） (2024-03-18T08:01:23Z)
Textual Localization: Decomposing Multi-concept Images for Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文参考訳（メタデータ） (2024-02-15T14:19:42Z)
SCO-VIST: Social Interaction Commonsense Knowledge-based Visual Storytelling [12.560014305032437]
本稿では、画像シーケンスをオブジェクトと関係を持つグラフとして表現するフレームワークであるSCO-VISTを紹介する。 SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。
論文参考訳（メタデータ） (2024-02-01T04:09:17Z)
Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文参考訳（メタデータ） (2023-10-08T21:45:34Z)
Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-08T16:45:56Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文参考訳（メタデータ） (2023-03-23T17:59:42Z)
Visual Clues: Bridging Vision and Language Foundations for Image Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文参考訳（メタデータ） (2022-06-03T22:33:09Z)
FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文参考訳（メタデータ） (2022-03-30T19:45:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。