論文の概要: Testing Relational Understanding in Text-Guided Image Generation
- arxiv url: http://arxiv.org/abs/2208.00005v1
- Date: Fri, 29 Jul 2022 02:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:41:46.508755
- Title: Testing Relational Understanding in Text-Guided Image Generation
- Title(参考訳): テキストガイド画像生成における関係理解のテスト
- Authors: Colin Conwell, Tomer Ullman
- Abstract要約: 関係は人間の認知の基本的な構成要素である。
最近の研究は、多くの関係が早期に発展し、急速に認識されていることを示唆している。
人間のレベルの認識と推論を意図したマシンモデルは、関係について生成的に認識し、推論する能力を反映すべきである。
- 参考スコア(独自算出の注目度): 3.3178024597495903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relations are basic building blocks of human cognition. Classic and recent
work suggests that many relations are early developing, and quickly perceived.
Machine models that aspire to human-level perception and reasoning should
reflect the ability to recognize and reason generatively about relations. We
report a systematic empirical examination of a recent text-guided image
generation model (DALL-E 2), using a set of 15 basic physical and social
relations studied or proposed in the literature, and judgements from human
participants (N = 169). Overall, we find that only ~22% of images matched basic
relation prompts. Based on a quantitative examination of people's judgments, we
suggest that current image generation models do not yet have a grasp of even
basic relations involving simple objects and agents. We examine reasons for
model successes and failures, and suggest possible improvements based on
computations observed in biological intelligence.
- Abstract(参考訳): 関係は人間の認知の基本的な構成要素である。
古典的かつ最近の研究は、多くの関係が早期に発展し、急速に認識されていることを示唆している。
人間レベルの認識と推論に意欲的なマシンモデルは、関係をジェネレーティブに認識し推論する能力を反映しなければならない。
本稿では,最近のテキストガイド画像生成モデル(dall-e2)について,文献で研究・提案されている15の基本的身体的・社会的関係と,被験者からの判断(n = 169)を用いて系統的実験を行った。
全体としては、画像の22%が基本的な関係プロンプトと一致していることが分かりました。
人の判断を定量的に検討した結果,現在の画像生成モデルは,単純な物体やエージェントを含む基本的な関係さえも把握できていないことが示唆された。
モデルの成功と失敗の理由を考察し、生物学的知性で観測された計算に基づく改善の可能性を提案する。
関連論文リスト
- Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis [21.619269792415903]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念的カバレッジと公平性を通じてテキスト条件を検証した。
論文 参考訳(メタデータ) (2024-03-08T07:41:47Z) - T-HITL Effectively Addresses Problematic Associations in Image
Generation and Maintains Overall Visual Quality [52.5529784801908]
我々は、人口集団と意味概念の間の問題的関連性の生成に焦点をあてる。
本稿では,問題のある関連の低減と視覚的品質の維持を両立させるため,T-HITL(two- Human-in-the-loop)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-27T00:29:33Z) - TIBET: Identifying and Evaluating Biases in Text-to-Image Generative Models [22.076898042211305]
我々は、任意のTTIモデルと任意のプロンプトに対して、幅広いバイアススペクトルを研究、定量化するための一般的なアプローチを提案する。
我々の手法は、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。
本研究では,本手法が意味論的概念を通じて複雑な多次元バイアスを説明できることを示す。
論文 参考訳(メタデータ) (2023-12-03T02:31:37Z) - Situating the social issues of image generation models in the model life cycle: a sociotechnical approach [20.99805435959377]
本稿では,画像生成モデルに関連する社会問題の包括的分類について報告する。
データ問題,知的財産権,バイアス,プライバシ,情報,文化,自然環境など,画像生成モデルから生じる7つのイシュークラスタを特定します。
画像生成モデルによって引き起こされるリスクは、大きな言語モデルによってもたらされるリスクと重大であると主張する。
論文 参考訳(メタデータ) (2023-11-30T08:32:32Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Composition and Deformance: Measuring Imageability with a Text-to-Image
Model [8.008504325316327]
生成した画像を用いて、単一英語の単語と接続されたテキストの可視性を測定する手法を提案する。
提案手法と個人単語の人的判断との間には高い相関関係が認められた。
本研究は,テキスト・ツー・イメージ・モデルにおけるモデルトレーニングの可能性と,構成性の研究に与える影響について論じる。
論文 参考訳(メタデータ) (2023-06-05T18:22:23Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z) - Visual stream connectivity predicts assessments of image quality [0.0]
我々は、知覚的類似性判断の正確かつ説明的な説明を提供する微分幾何学を示す、類似性の心理物理学の新たな形式化を導出する。
予測は、人間の行動報告に対する単純な回帰によってさらに改善され、それによってより精巧な仮説化された神経接続パターンを構築するのに使用される。
論文 参考訳(メタデータ) (2020-08-16T15:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。