論文の概要: Underspecification in Scene Description-to-Depiction Tasks
- arxiv url: http://arxiv.org/abs/2210.05815v1
- Date: Tue, 11 Oct 2022 22:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:44:24.255599
- Title: Underspecification in Scene Description-to-Depiction Tasks
- Title(参考訳): 場面記述・削除課題における不特定性
- Authors: Ben Hutchinson, Jason Baldridge, Vinodkumar Prabhakaran
- Abstract要約: マルチモーダル画像+テキストシステムにおけるタスクの妥当性と倫理的懸念を理解するためには,暗黙性,曖昧さ,不明瞭さに関する疑問が不可欠である。
本稿では,シーン記述からシーンを描写した画像を生成するシステムに着目し,このギャップに対処するための概念的枠組みについて述べる。
- 参考スコア(独自算出の注目度): 12.42922406134707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Questions regarding implicitness, ambiguity and underspecification are
crucial for understanding the task validity and ethical concerns of multimodal
image+text systems, yet have received little attention to date. This position
paper maps out a conceptual framework to address this gap, focusing on systems
which generate images depicting scenes from scene descriptions. In doing so, we
account for how texts and images convey meaning differently. We outline a set
of core challenges concerning textual and visual ambiguity, as well as risks
that may be amplified by ambiguous and underspecified elements. We propose and
discuss strategies for addressing these challenges, including generating
visually ambiguous images, and generating a set of diverse images.
- Abstract(参考訳): マルチモーダル画像+テキストシステムにおけるタスクの妥当性や倫理的懸念を理解するためには,暗黙性,曖昧さ,過小評価に関する疑問が不可欠である。
本稿では,シーン記述からシーンを描写した画像を生成するシステムに着目し,このギャップに対処するための概念的枠組みについて述べる。
そうすることで、テキストと画像が意味を異なる形で伝える方法が説明できます。
テキストと視覚のあいまいさに関する主要な課題と、曖昧で不明瞭な要素によって増幅される可能性のあるリスクについて概説する。
本稿では,視覚的不明瞭な画像の生成や多様な画像の生成など,これらの課題に対処するための戦略を提案し,議論する。
関連論文リスト
- Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Semi-supervised multimodal coreference resolution in image narrations [44.66334603518387]
マルチモーダル・コア参照分解能について検討し,特に記述テキストと画像のペア化について検討した。
これは、微粒な画像テキストアライメント、物語言語に固有のあいまいさ、大きな注釈付きトレーニングセットの有効性など、大きな課題を生じさせる。
画像ナレーションペアを用いたデータ効率のよい半教師付き手法を提案する。
論文 参考訳(メタデータ) (2023-10-20T16:10:14Z) - Describing image focused in cognitive and visual details for visually
impaired people: An approach to generating inclusive paragraphs [2.362412515574206]
ウェブナーなど、オンラインコンテンツに表示される画像コンテキストの理解など、特定のタスクをサポートするサービスが不足している。
本稿では,高密度キャプション手法とフィルタを併用したウェビナー画像のコンテキスト生成手法を提案し,ドメイン内のキャプションに適合する手法と抽象要約タスクのための言語モデルを提案する。
論文 参考訳(メタデータ) (2022-02-10T21:20:53Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Towards Accurate Text-based Image Captioning with Content Diversity
Exploration [46.061291298616354]
テキストによる画像の読み書きを目的としたテキストベースの画像キャプション(TextCap)は、マシンが詳細で複雑なシーン環境を理解する上で不可欠である。
既存の手法では、従来の画像キャプション手法を拡張して、単一のグローバルキャプションで画像全体のシーンを記述することに注力している。
複雑なテキストと視覚情報は、1つのキャプション内でうまく記述できないため、これは不可能です。
論文 参考訳(メタデータ) (2021-04-23T08:57:47Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。