論文の概要: Is Your Image a Good Storyteller?
- arxiv url: http://arxiv.org/abs/2501.01982v1
- Date: Sun, 29 Dec 2024 14:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-12 03:17:06.062193
- Title: Is Your Image a Good Storyteller?
- Title(参考訳): あなたのイメージは良いストーリーテラーか?
- Authors: Xiujie Song, Xiaoyi Pang, Haifeng Tang, Mengyue Wu, Kenny Q. Zhu,
- Abstract要約: 画像間の意味複雑性には違いがある。
よりリッチなセマンティクスを持つ画像は、鮮明で魅力的なストーリーを伝え、幅広いアプリケーションシナリオを提供することができる。
この問題に対処するために,画像意味評価(ISA)タスクを提案する。
- 参考スコア(独自算出の注目度): 35.403768557125204
- License:
- Abstract: Quantifying image complexity at the entity level is straightforward, but the assessment of semantic complexity has been largely overlooked. In fact, there are differences in semantic complexity across images. Images with richer semantics can tell vivid and engaging stories and offer a wide range of application scenarios. For example, the Cookie Theft picture is such a kind of image and is widely used to assess human language and cognitive abilities due to its higher semantic complexity. Additionally, semantically rich images can benefit the development of vision models, as images with limited semantics are becoming less challenging for them. However, such images are scarce, highlighting the need for a greater number of them. For instance, there is a need for more images like Cookie Theft to cater to people from different cultural backgrounds and eras. Assessing semantic complexity requires human experts and empirical evidence. Automatic evaluation of how semantically rich an image will be the first step of mining or generating more images with rich semantics, and benefit human cognitive assessment, Artificial Intelligence, and various other applications. In response, we propose the Image Semantic Assessment (ISA) task to address this problem. We introduce the first ISA dataset and a novel method that leverages language to solve this vision problem. Experiments on our dataset demonstrate the effectiveness of our approach. Our data and code are available at: https://github.com/xiujiesong/ISA.
- Abstract(参考訳): エンティティレベルでのイメージ複雑性の定量化は簡単だが、セマンティック複雑性の評価はほとんど見過ごされている。
実際、画像間の意味的複雑さには違いがある。
よりリッチなセマンティクスを持つ画像は、鮮明で魅力的なストーリーを伝え、幅広いアプリケーションシナリオを提供することができる。
例えば、Cookie Theftの絵はそのようなイメージであり、人間の言語と認知能力を評価するために広く使われている。
さらに、セマンティックにリッチなイメージは、セマンティクスに制限のあるイメージがより困難になってきているため、ビジョンモデルの開発に役立てることができる。
しかし、そのような画像はほとんどなく、もっと多くの画像の必要性を強調している。
例えば、Cookie Theftのような画像は、さまざまな文化的背景や時代を持つ人たちを惹きつける必要がある。
意味的な複雑さを評価するには、人間の専門家と経験的な証拠が必要である。
画像がどのようにセマンティックに富むかの自動評価は、リッチなセマンティクスでより多くの画像をマイニングまたは生成する最初のステップであり、人間の認知評価、人工知能、その他の様々なアプリケーションに恩恵をもたらす。
そこで本研究では,この問題に対処するための画像意味評価(ISA)タスクを提案する。
本稿では,このビジョン問題を解決するために,最初のISAデータセットと言語を活用した新しい手法を提案する。
データセットの実験は、我々のアプローチの有効性を実証する。
私たちのデータとコードは、https://github.com/xiujiesong/ISA.com/で利用可能です。
関連論文リスト
- StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Chain of Images for Intuitively Reasoning [23.692458865558486]
本稿では,複雑な言語推論問題を単純なパターン認識に変換するために,画像の連鎖(CoI)アプローチを提案する。
我々は、画像が直感的に問題解決を支援する15の異なる領域を含むCoI評価データセットを開発した。
CoI推論を支援するために,言語命令に基づいて厳密に画像を生成するシンボリック・マルチモーダル・大規模言語モデル(SyMLLM)を導入する。
論文 参考訳(メタデータ) (2023-11-09T11:14:51Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。