論文の概要: Understanding Dementia Speech Alignment with Diffusion-Based Image Generation
- arxiv url: http://arxiv.org/abs/2508.09385v1
- Date: Tue, 12 Aug 2025 23:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.709638
- Title: Understanding Dementia Speech Alignment with Diffusion-Based Image Generation
- Title(参考訳): 拡散画像生成による認知症音声のアライメント理解
- Authors: Mansi, Anastasios Lepipas, Dominika Woszczyk, Yiying Guan, Soteris Demetriou,
- Abstract要約: 以上の結果から,ADReSSデータセットで75%の精度で認知症検出が可能であることが示唆された。
次に、説明可能性法を利用して、言語のどの部分が検出に寄与しているかを示す。
- 参考スコア(独自算出の注目度): 2.534053759586253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models generate highly realistic images based on natural language descriptions and millions of users use them to create and share images online. While it is expected that such models can align input text and generated image in the same latent space little has been done to understand whether this alignment is possible between pathological speech and generated images. In this work, we examine the ability of such models to align dementia-related speech information with the generated images and develop methods to explain this alignment. Surprisingly, we found that dementia detection is possible from generated images alone achieving 75% accuracy on the ADReSS dataset. We then leverage explainability methods to show which parts of the language contribute to the detection.
- Abstract(参考訳): テキストと画像のモデルは、自然言語の記述に基づいて非常にリアルな画像を生成し、数百万のユーザがそれをオンラインで画像を作成し、共有している。
このようなモデルでは、入力テキストと生成された画像が同じ潜在空間で整列できることが期待されているが、このアライメントが病的音声と生成された画像の間で可能かどうかを理解するために、ほとんど行われていない。
本研究では,認知症関連音声情報と生成画像との整合性について検討し,このアライメントを説明する手法を開発した。
意外なことに,ADReSSデータセットでは,生成画像のみから認知症検出が可能であり,75%の精度が得られた。
次に、説明可能性法を利用して、言語のどの部分が検出に寄与しているかを示す。
関連論文リスト
- RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。
本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。
報酬信号は、テキストの意味情報を合成画像と整合させるように設計されている。
論文 参考訳(メタデータ) (2025-03-20T01:51:05Z) - ISImed: A Framework for Self-Supervised Learning using Intrinsic Spatial Information in Medical Images [0.0]
本稿では,自己監督学習(SSL)を用いて医用画像の解釈可能な表現を学習するために空間情報を利用することを実証する。
我々は、物理的領域における位置をキャプチャ可能な潜在表現を生成する自己教師対象を確立する。
提案手法は,データの基盤構造を捉える表現を効率的に学習し,下流の分類タスクに転送することができることを示す。
論文 参考訳(メタデータ) (2024-10-22T12:21:39Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Evaluating Picture Description Speech for Dementia Detection using
Image-text Alignment [10.008388878255538]
画像と記述文の両方を入力として用いた最初の認知症検出モデルを提案する。
認知症と健康なサンプルの相違を,テキストが画像と集中領域に与える影響で観察する。
本稿では,画像,サブイメージ,集中領域との関連性に基づいて,サンプルを前処理する3つの高度なモデルを提案する。
論文 参考訳(メタデータ) (2023-08-11T08:42:37Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。