論文の概要: Relations, Negations, and Numbers: Looking for Logic in Generative Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2411.17066v1
- Date: Tue, 26 Nov 2024 03:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:45.853621
- Title: Relations, Negations, and Numbers: Looking for Logic in Generative Text-to-Image Models
- Title(参考訳): 関係・否定・数:生成的テキスト・画像モデルにおける論理性を探る
- Authors: Colin Conwell, Rupert Tawiah-Quashie, Tomer Ullman,
- Abstract要約: 関係、否定、離散数という3種類の論理作用素について検討する。
人的合意のスコアが50%を超えることは確実ではない。
本稿では,マルチモーダル学習システムに固有の制約について論じる。
- 参考スコア(独自算出の注目度): 0.5461938536945723
- License:
- Abstract: Despite remarkable progress in multi-modal AI research, there is a salient domain in which modern AI continues to lag considerably behind even human children: the reliable deployment of logical operators. Here, we examine three forms of logical operators: relations, negations, and discrete numbers. We asked human respondents (N=178 in total) to evaluate images generated by a state-of-the-art image-generating AI (DALL-E 3) prompted with these `logical probes', and find that none reliably produce human agreement scores greater than 50\%. The negation probes and numbers (beyond 3) fail most frequently. In a 4th experiment, we assess a `grounded diffusion' pipeline that leverages targeted prompt engineering and structured intermediate representations for greater compositional control, but find its performance is judged even worse than that of DALL-E 3 across prompts. To provide further clarity on potential sources of success and failure in these text-to-image systems, we supplement our 4 core experiments with multiple auxiliary analyses and schematic diagrams, directly quantifying, for example, the relationship between the N-gram frequency of relational prompts and the average match to generated images; the success rates for 3 different prompt modification strategies in the rendering of negation prompts; and the scalar variability / ratio dependence (`approximate numeracy') of prompts involving integers. We conclude by discussing the limitations inherent to `grounded' multimodal learning systems whose grounding relies heavily on vector-based semantics (e.g. DALL-E 3), or under-specified syntactical constraints (e.g. `grounded diffusion'), and propose minimal modifications (inspired by development, based in imagery) that could help to bridge the lingering compositional gap between scale and structure. All data and code is available at https://github.com/ColinConwell/T2I-Probology
- Abstract(参考訳): マルチモーダルなAI研究の顕著な進歩にもかかわらず、現代のAIは人間の子供でさえかなり遅れている。
ここでは、関係、否定、離散数という3種類の論理作用素について検討する。
我々は,これらの「科学的プローブ」によって引き起こされた最先端の画像生成AI(DALL-E3)による画像の評価を,人間の回答者(N=178名)に依頼した。
否定プローブと数(その上3)は最も頻繁に失敗する。
第4実験では,目標とするプロンプト工学と構造化中間表現を併用した「基底拡散」パイプラインの評価を行ったが,その性能は,プロンプト間のDALL-E 3よりもさらに悪いと判断された。
これらのテキスト・ツー・イメージシステムの成功源と失敗の可能性をさらに明確にするために、我々は4つのコア実験を複数の補助解析とスキーマ図で補完し、例えば、リレーショナルプロンプトのN-gram頻度と生成画像の平均一致の関係、否定プロンプトのレンダリングにおける3つの異なるプロンプト修正戦略の成功率、整数を含むプロンプトのスカラー変数/比率依存性("approximate numeracy'")を直接定量化する。
本稿では,ベクトルベースセマンティクス(例えばDALL-E3)に強く依存する「接地型」マルチモーダル学習システムに固有の制約,あるいは非特定構文的制約(例えば「接地型拡散」)について論じるとともに,スケールと構造の間のひねりのある構成ギャップを埋めるのに役立つ最小限の修正(画像に基づく開発による)を提案する。
すべてのデータとコードはhttps://github.com/ColinConwell/T2I-Probologyで入手できる。
関連論文リスト
- Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph [0.3926357402982764]
本稿では,メカニカルエッジとセマンティックエッジを用いた3次元シーングラフ表現を構築するBBQというモジュラーアプローチを提案する。
BBQは、3Dオブジェクト中心のマップを構築するために、堅牢なDINO対応のアソシエーションを使用している。
BBQは,他のゼロショット法と比較して,オープンな3次元セマンティックセマンティックセマンティックセグメンテーションにおいて中心的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:57:04Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Discovering Failure Modes of Text-guided Diffusion Models via
Adversarial Search [52.519433040005126]
テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。
本研究は,TDMの障害モードについて,より詳細に研究し,理解することを目的としている。
本稿では,TDM上での最初の逆探索手法であるSAGEを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:00Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。
密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。
私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文 参考訳(メタデータ) (2021-04-07T17:58:22Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。