論文の概要: Advancing Automated Spatio-Semantic Analysis in Picture Description Using Language Models
- arxiv url: http://arxiv.org/abs/2510.05128v1
- Date: Tue, 30 Sep 2025 20:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 22:13:09.298418
- Title: Advancing Automated Spatio-Semantic Analysis in Picture Description Using Language Models
- Title(参考訳): 言語モデルを用いた画像記述における自動時空間解析の高速化
- Authors: Si-Ioi Ng, Pranav S. Ambadi, Kimberly D. Mueller, Julie Liss, Visar Berisha,
- Abstract要約: 画像記述による認知言語障害の自動評価手法は、しばしば視覚的物語パスを無視する。
本研究では,Cookie画像記述からCIUの自動抽出と順序付けを行うために,バイナリクロスエントロピーとペアランキング損失を微調整したBERTベースのパイプラインを提案する。
5倍のクロスバリデーションで評価すると、中央値の93%の精度、CIU検出における中央値のリコール、24%のシーケンスエラー率が得られる。
- 参考スコア(独自算出の注目度): 18.06768032495233
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Current methods for automated assessment of cognitive-linguistic impairment via picture description often neglect the visual narrative path - the sequence and locations of elements a speaker described in the picture. Analyses of spatio-semantic features capture this path using content information units (CIUs), but manual tagging or dictionary-based mapping is labor-intensive. This study proposes a BERT-based pipeline, fine tuned with binary cross-entropy and pairwise ranking loss, for automated CIU extraction and ordering from the Cookie Theft picture description. Evaluated by 5-fold cross-validation, it achieves 93% median precision, 96% median recall in CIU detection, and 24% sequence error rates. The proposed method extracts features that exhibit strong Pearson correlations with ground truth, surpassing the dictionary-based baseline in external validation. These features also perform comparably to those derived from manual annotations in evaluating group differences via ANCOVA. The pipeline is shown to effectively characterize visual narrative paths for cognitive impairment assessment, with the implementation and models open-sourced to public.
- Abstract(参考訳): 画像記述による認知言語障害の自動評価のための現在の手法は、しばしば視覚的物語の経路、すなわち、画像に記述された話者の配列と位置を無視する。
スパース・セマンティックな特徴の分析はコンテンツ情報単位(CIU)を用いてこの経路を捉えるが、手動タグ付けや辞書ベースのマッピングは労働集約的である。
本研究は,Cookie Theft 画像記述からのCIU自動抽出と順序付けのために,バイナリクロスエントロピーとペアランキング損失を微調整した BERT ベースのパイプラインを提案する。
5倍のクロスバリデーションによって評価され、中央値の93%の精度、CIU検出における中央値の96%のリコール、24%のシーケンスエラー率を達成する。
提案手法は,外的検証において辞書ベースベースラインを超越して,Pearsonと地上真実との強い相関関係を示す特徴を抽出する。
これらの機能は、ANCOVAを介してグループの違いを評価する際に、手動のアノテーションから派生したものと互換性がある。
パイプラインは、認知障害評価のための視覚的物語パスを効果的に特徴付け、その実装とモデルは一般に公開されている。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Automated Extraction of Spatio-Semantic Graphs for Identifying Cognitive Impairment [12.995237106764497]
画像記述中の視覚的意味経路を自動推定する手法を提案する。
実験により、視覚的意味経路の自動的特徴付けは、障害のある話者と障害のない話者を効果的に区別できることが示されている。
論文 参考訳(メタデータ) (2025-02-02T10:25:19Z) - Interpretable Network Visualizations: A Human-in-the-Loop Approach for Post-hoc Explainability of CNN-based Image Classification [5.087579454836169]
State-of-the-art explainability Method は、特定のクラスが特定された場所を示すために、サリエンシマップを生成する。
本稿では,畳み込みニューラルネットワークの機能抽出プロセス全体を説明するポストホック手法を提案する。
また,複数の画像にラベルを集約することで,グローバルな説明を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T09:21:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Probing the Purview of Neural Networks via Gradient Analysis [13.800680101300756]
我々は、ニューラルネットワークのデータ依存能力を分析し、推論中のネットワークの観点から入力の異常を評価する。
ネットワークのパービューを探索するために、モデルに必要な変化量を測定するために勾配を利用して、与えられた入力をより正確に特徴付ける。
我々の勾配に基づくアプローチは、学習した特徴で正確に表現できない入力を効果的に区別できることを実証する。
論文 参考訳(メタデータ) (2023-04-06T03:02:05Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。