論文の概要: Independent Density Estimation
- arxiv url: http://arxiv.org/abs/2512.10067v1
- Date: Wed, 10 Dec 2025 20:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.059747
- Title: Independent Density Estimation
- Title(参考訳): 独立密度推定
- Authors: Jiahao Liu,
- Abstract要約: 本稿では,この課題に対処するために,独立密度推定(IDE)と呼ばれる新しい手法を提案する。
IDEは、文中の個々の単語と画像内の対応する特徴との間の接続性について学習することを目的としており、合成の一般化を可能にする。
本モデルは,様々なデータセットで評価した場合に,現在のモデルと比較して,目に見えない合成に対して優れた一般化を示す。
- 参考スコア(独自算出の注目度): 27.51041148291178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Vision-Language models have achieved remarkable results in various domains, such as image captioning and conditioned image generation. Neverthe- less, these models still encounter difficulties in achieving human-like composi- tional generalization. In this study, we propose a new method called Independent Density Estimation (IDE) to tackle this challenge. IDE aims to learn the connec- tion between individual words in a sentence and the corresponding features in an image, enabling compositional generalization. We build two models based on the philosophy of IDE. The first one utilizes fully disentangled visual representations as input, and the second leverages a Variational Auto-Encoder to obtain partially disentangled features from raw images. Additionally, we propose an entropy- based compositional inference method to combine predictions of each word in the sentence. Our models exhibit superior generalization to unseen compositions compared to current models when evaluated on various datasets.
- Abstract(参考訳): 画像キャプションや条件付き画像生成など,大規模ビジョンランゲージモデルは様々な領域において顕著な成果を上げている。
とはいえ、これらのモデルは、人間のようなコンポジット・オプティカル・ジェネラル・ジェネレーションを達成するのに依然として困難に直面する。
本研究では,この課題に対処するために,独立密度推定(IDE)と呼ばれる新しい手法を提案する。
IDEは、文中の個々の単語と画像内の対応する特徴との間の接続性について学習することを目的としており、合成の一般化を可能にする。
IDEの哲学に基づいた2つのモデルを構築します。
1つは、完全に非絡み合った視覚表現を入力として利用し、もう1つは、変分オートエンコーダを利用して、原画像から部分的に非絡み合った特徴を得る。
さらに,文中の各単語の予測を組み合わせ,エントロピーに基づく合成推論手法を提案する。
本モデルは,様々なデータセットで評価した場合に,現在のモデルと比較して,目に見えない合成に対して優れた一般化を示す。
関連論文リスト
- GRADE: Quantifying Sample Diversity in Text-to-Image Models [66.12068246962762]
GRADEはテキスト・画像モデルにおけるサンプルの多様性を定量化する手法である。
GRADEを用いて、合計720K画像上の12種類のモデルの多様性を測定する。
論文 参考訳(メタデータ) (2024-10-29T23:10:28Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Semantic Approach to Quantifying the Consistency of Diffusion Model Image Generation [0.40792653193642503]
拡散モデルにおける画像生成の再現性、あるいは一貫性の解釈可能な定量的スコアの必要性を同定する。
セマンティック・コンセンサス・スコアとしてペア平均CLIPスコアを用いるセマンティック・アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T20:16:03Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Image Captioning with Compositional Neural Module Networks [18.27510863075184]
自然言語の合成性と順序性の両方を探求する画像キャプションのための階層的枠組みを導入する。
提案アルゴリズムは,入力画像で検出された各オブジェクトの特異な側面に対応する異なるモジュールに選択的に参加することで,詳細に富んだ文を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-10T20:58:04Z) - Using Human Psychophysics to Evaluate Generalization in Scene Text
Recognition Models [7.294729862905325]
我々は2つの重要なシーンテキスト認識モデルを,その領域を計測することで特徴付ける。
ドメインは、読み手が様々な単語の長さ、フォント、閉塞量に一般化する能力を指定する。
論文 参考訳(メタデータ) (2020-06-30T19:51:26Z) - A Study of Compositional Generalization in Neural Models [22.66002315559978]
本稿では,合成概念や関係概念から画像を生成するConceptWorldを紹介する。
我々は、合成論と関係を一般化する標準ニューラルネットワークの能力をテストする実験を行う。
単純な問題に対して、すべてのモデルは閉じた概念によく一般化するが、より長い構成的連鎖に苦しむ。
論文 参考訳(メタデータ) (2020-06-16T18:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。