論文の概要: Unveil Multi-Picture Descriptions for Multilingual Mild Cognitive Impairment Detection via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2505.17067v2
- Date: Mon, 26 May 2025 08:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.647489
- Title: Unveil Multi-Picture Descriptions for Multilingual Mild Cognitive Impairment Detection via Contrastive Learning
- Title(参考訳): コントラスト学習による多言語軽度認知障害検出のためのUnveil Multi-Picture Descriptions
- Authors: Kristin Qi, Jiali Cheng, Youxiang Zhu, Hadi Amiri, Xiaohui Liang,
- Abstract要約: TAUKDIAL-2024チャレンジでは、多言語話者と複数の画像が導入され、画像に依存したコンテンツを解析する上で新たな課題が提示される。
本稿では,(1)教師付きコントラスト学習による差別的表現学習の強化,(2)音声やテキストのモダリティのみに頼らず,画像モダリティの関与,(3)素早い相関と過剰適合を緩和するための専門家製品(PoE)戦略の適用,の3つの枠組みを提案する。
我々のフレームワークは、MCI検出性能を改善し、UAR(Unweighted Average Recall)のプラス7.1%(68.1%から75.2%)、F1スコアのプラス2.9%(8.9%)を達成する。
- 参考スコア(独自算出の注目度): 18.109871094863806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting Mild Cognitive Impairment from picture descriptions is critical yet challenging, especially in multilingual and multiple picture settings. Prior work has primarily focused on English speakers describing a single picture (e.g., the 'Cookie Theft'). The TAUKDIAL-2024 challenge expands this scope by introducing multilingual speakers and multiple pictures, which presents new challenges in analyzing picture-dependent content. To address these challenges, we propose a framework with three components: (1) enhancing discriminative representation learning via supervised contrastive learning, (2) involving image modality rather than relying solely on speech and text modalities, and (3) applying a Product of Experts (PoE) strategy to mitigate spurious correlations and overfitting. Our framework improves MCI detection performance, achieving a +7.1% increase in Unweighted Average Recall (UAR) (from 68.1% to 75.2%) and a +2.9% increase in F1 score (from 80.6% to 83.5%) compared to the text unimodal baseline. Notably, the contrastive learning component yields greater gains for the text modality compared to speech. These results highlight our framework's effectiveness in multilingual and multi-picture MCI detection.
- Abstract(参考訳): 画像記述から軽度認知障害を検出することは、特に多言語および複数画像設定において、非常に難しい。
前作では、主に1枚の絵を描いた英語話者に焦点を当てていた(例:Cookie Theft)。
TAUKDIAL-2024チャレンジは、多言語話者と複数の画像を導入することで、この範囲を広げる。
これらの課題に対処するため,(1)教師付きコントラスト学習による差別的表現学習の強化,(2)音声やテキストのモダリティにのみ依存するのではなく,画像のモダリティを伴うこと,(3)素早い相関と過剰適合を緩和するために専門家製品(PoE)戦略を適用すること,の3つの枠組みを提案する。
本フレームワークは,MCI検出性能を向上し,非重み付き平均リコール(UAR)の7.1%増加(68.1%から75.2%),F1スコアの2.9%増加(80.6%から83.5%)を実現した。
特に、対照的な学習成分は、音声に比べてテキストのモダリティが向上する。
これらの結果は,多言語・多画像MCI検出におけるフレームワークの有効性を浮き彫りにした。
関連論文リスト
- ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning [27.350370419751385]
リモートセンシング画像キャプチャー(Remote Sensing Image Captioning、RSIC)は、リモートセンシング画像における特徴やシーンの自然言語記述を自動的に生成することを目的とした、クロスプラットフォームの視野と言語である。
非英語記述データセットの不足とモデルに対する多言語能力評価の欠如という2つの重要な課題が続いている。
本稿では,68,170のバイリンガルキャプションと組み合わせた13,634枚の画像を含む,3つの確立した英語RSICデータセットを中国語記述で強化した包括的バイリンガルデータセットであるBRSICを紹介し,分析する。
論文 参考訳(メタデータ) (2025-03-06T16:31:34Z) - Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP [22.33658954569737]
我々は、IGT(Image-Guided-Text)コンポーネントとTGI(Text-Guided-Image)コンポーネントを導入し、相互誘導機構を構築する。
広範囲な実験により、TIMOは最先端(SOTA)トレーニングフリー法よりも著しく優れていた。
提案する改良型TIMO-Sは,最高のトレーニング要求手法を約100倍の時間コストで0.33%以上越えることが可能である。
論文 参考訳(メタデータ) (2024-12-16T02:03:45Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。
本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。
Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation [21.54093527562344]
本稿では,大規模事前学習モデル (LPM) からの事前知識を蒸留し, 監視として活用する新たな戦略を提案する。
具体的には,Retrieval-augmented Pseudo Sentence Generation (RaPSG)を導入する。
実験結果から,SOTAキャプションの精度は様々な設定で優れていた。
論文 参考訳(メタデータ) (2023-07-27T10:16:13Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。